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译 痢 序 


能 翻 开 这 本 书 的 人 ， 想 必 对 编程 都 有 者 浓厚 的 兴趣 。 大 部 分 编程 爱好 者 
都 会 利用 业余 时 间 写 一 些小 程序 、 开 源 项 目 作为 消 址 ， 却 很 少 有 人 会 想 
要 目 己 创造 一 门 编程 语言 ， 这 是 为 什么 呢 ? 


在 翻译 本 书 之 前 ， 如 末 别 人 间 我 要 不 要 尝试 自制 编程 语言 ， 我 一 定 会 觉 
得 他 疯 了 。 因 为 在 潜意识 里 ， 我 一 直 认 为 制作 编程 语言 应 该 是 C 语言 之 
父 丹 尼斯 :里 奇 这 样 的 业界 大 牛 才 能 完成 的 浩大 工程 ， 作 为 一 个 普通 程 
序 员 只 要 安 于 本 分 ， 用 好 已 有 的 语言 就 已 经 足够 了 。 


在 翻译 完 本 书后 ， 我 才 发 现 自己 真 的 是 大 错 特 错 。 原 来 创造 一 门 编程 语 

言 ， 只 需要 一 些 C 语言 基础 、 一 些 正则 表达 式 知 识 、 加 上 不 断 思 索 的 大 

脑 束 可 以 做 到 。 如 果 你 还 觉得 难以 置信 ， 那 么 就 请 看 看 在 这 本 不 算 厚 的 

EO 
守土 。 


其 实 一 开始 的 问题 已 经 有 了 答案 : 很 多 看 似 难 如 登 天 的 事情 ， 一 旦 真 的 
下 决心 去 做 ， 你 会 发 现 难度 并 没有 想象 中 那么 高 ， 只 是 我 们 往往 缺少 一 
颗 勇 于 挑 成 的 心 罢 了 。 


本 书记 录 了 作者 一 步 一 步 从 零 创 造 出 编程 语言 的 全 过 程 ， 作 者 并 不 是 什 
么 行业 精英 ， 而 是 像 你 我 一 样 的 普通 开发 者 。 整 本 书 中 也 没有 用 特别 复 
杂 的 算法 或 酷 怪 的 编程 技巧 ， 但 是 就 凭借 着 一 行 行 简单 朴实 的 编程 语 
句 ， 作 者 最 终 完成 了 一 个 普通 开发 者 看 来 几乎 不 可 能 完成 的 任务 。 阅 读 
人 
大 和 东西。 


本 书 原文 讲 到 了 日 文 编码 的 知识 ， 为 了 更 好 的 将 内 容 精髓 呈现 给 读者 ， 
我 们 大 胆 地 将 涉及 日 文 编码 的 部 分 全 部 更 改 为 中 文 编码 的 知识 ， 译 者 刘 
早 还 对 此 编写 了 很 多 原创 的 补充 内 容 ， 力 求 能 与 原 书 保持 同样 的 水 平 。 
如 有 错误 或 琉 漏 ， 还 请 读者 随时 指正 。 


读 完 全 书后 ， 你 会 对 编程 语言 的 原理 和 实现 方式 有 一 个 全 面 深入 的 了 
解 ， 比 如 你 会 明白 为 什么 Java 中 String 类 型 明明 是 对 象 类 型 却 不 能 改变 
























































其 内 容 ，C 语言 中 为 什么 a++ + ++b 这 样 看 似 合理 的 语句 却 会 报错 等 。 
以 前 知 其 然而 不 知 其 所 以 然 的 问题 都 会 得 到 答案 ， 这 对 日 后 进行 更 高 阶 
的 开发 有 很 大 的 帮助 。 


更 重要 的 是 ， 你 可 以 获得 自制 编程 语言 的 能 力 ， 从 而 可 以 去 做 很 多 以 前 
敢 想 却 没 有 能 力 做 的 事情 ， 比 如 我 现在 就 在 构思 能 否 创 造 一 门 以 文言 文 
和 中 国 吉 代 文 化 为 基础 的 编程 语言 : 易 经 八卦 就 是 天 然 的 二 维 窃 阵 ， 

《 九 章 算术 》 则 有 不 少 基础 算法 .……… 相 信 读 者 还 会 有 更 加 天 才 有 趣 的 想 
法 出 现 。 如 果 能 运用 本 书 中 的 知识 最 终 将 其 实现 ， 那 么 这 将 是 对 翻译 工 
作 最 好 的 肯定 。 


最 后 ， 在 这 里 代表 其 他 二 位 译 者 一 并 感谢 在 翻译 过 程 中 给 予 我 们 帮助 和 
文 持 的 家 人 、 同 事 ， 让 这 本 书 最 终 得 以 问世 。 








徐 谦 


2013 年 中 秋 
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采 言 


这 本 书 是 为 那些 想 独 立 制作 一 门 编程 语言 的 人 而 写 的 。 


一 听 到 这 个 话题 ， 有 的 人 会 想 : 太 疡 狂 了 ， 制 作 编程 语言 肯定 很 有 难度 
吧 ? 有 人 会 怀疑 : 制作 编程 语言 能 有 什么 用 呢 ? 其 实 这 些 都 是 误解 。 


制作 编程 语言 在 技术 层面 上 其 实 并 不 难 ， 只 要 掌握 一 些 基础 知识 即 可 。 
而 且 ， 制 作 编程 语言 对 于 我 们 深入 理解 日 党 使 用 的 C、Java、JavaScript 
等 语言 都 有 帮助 。 在 一 些 应 用 程序 的 内 置 脚本 语言 中 ， 我 们 也 经 常会 因 
为 种 种 限制 从 而 萌生 制作 蔡 代 语言 的 想法 。 因 此 ， 自 制 编程 语言 并 不 是 
少数 极 客 的 个 人 乌 好 ， 它 对 大 多 数 程 序 员 都 诺 具 实用 价值 。 


日 本 关于 制作 编程 语言 的 书 已 经 很 多 了 ， 其 中 一 些 还 被 选 定 为 大 学 教科 
书 。 这 些 书 中 常 出 现 有 限 状 态 机 、NFA、LL(1)、LR(1)、SLA 等 专业 词 
汇 ， 同 时 还 大 量 使 用 n、€E 等 数学 符 写 ， 对 于 不 熟悉 这 部 分 理论 知识 的 
人 “包括 我 自己 在 内 ) 来 说 非常 难以 读 懂 。 针 对 这 种 现状 ， 本 书 会 偏重 
实践 ， 避 免 枯 燥 的 理论 。 


本 书 将 分 别 制作 两 种 编程 语言 : crowbar 与 Diksam。crowbar 是 运行 分 析 
树 的 无 类 型 语言 ，Diksam 是 运行 字 节 人 码 的 静态 类 型 语言 。 无 论 哪 种 语 
言 ， 都 具备 四 则 运算 、 变 量 、 条 件 分 文 、 循 环 、 函 数 定 义 、 垃 圾 回收 等 
功能 ， 最 终 版 则 可 以 支持 面向 对 象 、 异 常 处 理 等 高 级 机 制 。 总 之 ， 作 为 
现代 编程 语言 所 必须 具备 的 功能 都 基本 和 窗 新 了 【唯一 可 能 没 实现 的 束 是 
多 线程 了 吧 ) 。 所 有 源 代码 都 提供 下 载 ， 读 者 可 以 一 边 对 照 书 中 的 说 明 
一 边 调试 源 代 码 ， 这 样 应 该 不 难 理解 整个 程序 的 运行 机 制 。 


当然 ， 要 一 次 实现 如 此 多 功能 的 编程 语言 ， 对 于 初学 者 而 言 可 能 有 点 吃 
力 ， 因 此 本 书 会 详细 介绍 crowbar、Diksam 的 制作 步骤 ， 请 放心 。 


在 制作 编程 语言 的 过 程 中 ， 我 体会 到 了 一 种 无 法 用 语言 形容 的 快乐 。 其 

实 无 论 在 日 本 或 其 他 地 区 ， 世 界 上 还 有 很 多 人 都 在 尝试 自制 编程 语言 

这 正 是 编程 语言 不 断 增 加 的 原因 。 如 果 以 本 书 为 契机 ， 有 朝 一 日 你 也 向 

本 已 混乱 的 巴比伦 之 内 再 湛 一 门 新 滞 寺 的 话 ， 作 为 本 书 作者 ， 这 将 是 无 
人 光荣。 












































在 本 书 的 撰写 过 程 中 ， 得 到 了 很 多 朋友 的 帮助 与 文 持 : 


感谢 百 忙 之 中 通读 原稿 并 给 出 很 多 改进 意见 的 吉田 敦 、 间 野 健 二 、 滕 井 
壮 一 、 山 本 将 ;感谢 对 本 书 原型 ， 即 网 页 版 “自制 编程 语言 "提出 意见 的 
朋友 ; 感谢 对 博客 连载 “自制 编程 语言 日 记 ” 提 出 意见 的 读者 朋友 ， 以 及 
实际 使 用 crowbar 与 Diksam 并 提出 意见 的 朋友 。 最 后 还 要 感谢 每 次 对 我 
延迟 交 稿 仍然 充满 耐心 的 技术 评论 社 的 熊谷 裕 美 子 编辑 。 多 亏 大 家 的 易 
力 文 持 ， 本 书 才 终 能 完成 ， 在 此 我 表示 深 深 的 谢意 。 
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1.1 为 什么 要 制作 编程 语言 





本 书 的 主题 是 自制 编程 语言 。 单 说 现在 被 广泛 使 用 的 编程 语言 ， 就 有 

C、 C++、 Java、 C#、Perl、Python、Ruby、PHP、Lisp、JavaScript 等 。 

可 能 有 人 会 质疑 ， 既 然 已 经 有 这 么 多 语言 了 ， 真 的 有 必要 再 特意 创造 一 
门 新 的 语言 吗 ? 


实际 上 ， 自 制 编程 语言 还 是 大 有 益处 的 。 








1. 可 以 帮助 理解 编程 语言 的 内 部 运行 机 制 


编程 语言 是 程序 员 每 天 都 要 使 用 的 工具 。 深 刻 地 理解 这 个 工具 ， 对 程序 
员 来 说 非常 重要 。 


一 般 来 说 ， 重 新 编写 一 个 与 已 有 程序 相似 的 程序 会 被 说 成 是 “重复 发 明 
轮子 ”， 这 在 行业 内 是 不 被 认同 的 。 但 本 书 中 想 要 实现 的 ， 偏 偏 是 在 众 
多 语言 存在 的 前 提 下 再 制作 一 门 新 的 语言 ， 正 是 “重复 发 明 轮 子 ”。 这 是 
深刻 理解 编程 语言 的 最 佳 途径 《缺点 是 要 人 花 很 多 时 间 ) 。 


2. 能 制作 领域 专用 语言 


比如 在 Unix 的 世界 中 ， 有 sed 和 awk 两 种 历史 悠久 的 专 为 文本 处 理 定制 的 
语言 《后 来 在 此 方向 上 发 展 出 了 Perl 语 言 》 。PHP 则 是 专门 面向 Web 程 
序 开 发 的 语言 。 如 果 掌 握 了 制作 编程 语言 的 技术 ， 就 可 以 在 必要 的 情况 
下 制作 出 领域 专用 语言 (DSL，Domain Specific Language) 。 


领域 专用 语言 不 一 定 会 像 Perl 与 PHP 那 么 复杂 ， 在 很 多 情况 下， 如果 能 
0 
领域 。 


比如 在 业务 流程 处 理 等 软件 中 ， 很 多 时 候 为 了 切换 测试 环境 与 生产 环境 
的 数据 库 ， 需 要 重 写 配置 文件 ， 而 这 一 操作 经 常会 引发 问题 《比如 由 于 
版 本 升级 需要 增加 配置 文件 项 目 ， 此 时 必须 与 日 版 本 配置 文件 合并 ) 。 
这 时 候 我 们 可 能 就 会 想 ， 如 采 能 直接 在 配置 文件 中 写 计 语句 将 其 按 域 
名 分 开 哆 好 了 。 


除 此 以 外 ， 我 们 在 填写 数据 时 可 能 希望 能 文 持 类 似 Excel 的 简单 算术 公 
式 ， 在 玩 游戏 时 希望 能 把 游戏 中 的 对 话 导出 到 一 个 外 部 文件 中 ， 等 等 。 
这 些 都 可 以 看 作 专 用 领域 并 制作 对 应 的 DSL。 


3. 可 以 用 编程 语言 扩展 应 用 程序 


将 以 上 两 方面 的 考量 进一步 延伸 ， 我 们 就 会 得 到 以 通用 语言 扩展 某 个 应 
用 程序 的 构想 。Emacs 这 个 编辑 器 束 内 置 了 Emacs Lisp 这 种 Lisp 方 言 ， 从 
而 为 Emacs 的 自 定 义 提供 了 无 限 的 可 能 性 。 同 理 ，Microsoft Office 也 可 
以 使 用 VBA 进 行 扩 展 。 
























































对 于 这 类 应 用 程序 扩展 语言 ， 当 然 完全 可 以 使 用 茶 种 己 有 的 编程 语言 

《Lua 等 就 在 向 这 个 方向 发 展 ) ， 也 可 以 在 编写 应 用 程序 时 从 底层 到 扩 
展 全 部 自己 实现 。 这 样 就 无 需 担 心 使 用 其 他 编程 语言 在 版 本 升级 时 引起 
的 兼容 性 问题 了 。 

4. 说 不 定 还 会 变 成 名 人 


如 采 目 制 的 编程 语言 能 在 世界 范围 请 得 到 广泛 使 用 ， 那 融 太 棒 了 。 比 如 
Ruby 之 父 松本 行 弘 先生 束 是 世界 名 人 。 

不 过 坦白 讲 ， 通 过 自制 编程 语言 来 获得 成 功 实在 是 太 难 了。 即便 语 言 被 
创造 出 来 ， 如 果 没 人 用 的 话 束 不 会 产生 相应 的 软件 ， 这 样 就 更 不 会 有 人 
用 了 。 况 且 ， 即 便 真 的 因为 及 明了 新 的 语言 而 变 成 了 名 人 ， 退 过 这 个 赚 
到 钱 的 希望 也 十 分 渺茫 啊 。 其 实 我 自己 最 近 写 的 语法 处 理 器 都 是 免费 发 
布 的 〈 不 这 样 的 话 ， 语 言 没 法 普及 呀 ) 。 

5. 目 制 编程 语言 非常 有 趣 

哆 喧 了 这 么 多 ， 说 到 的 其 实 是 因为 自制 编程 语言 非 党 有 趣 。 

自制 一 门 编程 语言 确实 是 一 件 非常 有 意思 的 事 。 有 人 说 过 “ 想 写 出 终极 
程序 的 程序 员 ， 最 终 部 去 写 操作 系统 或 者 编程 语言 了 T”， 你 可 以 通过 日 
制 编程 语言 感受 到 接触 最 核心 技术 的 乐趣 。 


让 尽 可 能 多 的 人 感受 到 这 种 乐趣 ， 这 正 是 本 书 的 目标 。 
1.2 自制 编程 语言 并 不 是 很 难 

一 提起 自制 编程 语言 ， 很 多 人 都 会 觉得 这 是 一 件 非常 难 的 事情 。 
比如 ， 即 便 是 一 个 很 常见 的 赋值 语句 : 


al = bl + b2 * 0.5; 


在 自制 编程 语言 时 都 必须 考虑 到 以 下 几 个 要 点 。 


1. 需要 将 al 、b1 、b2 作为 变量 名 解析 出 来 。 如 果 按 照 C 语 言 的 语 
































法 规则 ， 变 量 名 只 能 由 字母 或 下 划 线 开头 ， 从 变量 名 第 二 个 字符 
开始 才 允 许 出 现 字 母 或 数字 。 所 以 首先 必须 扫描 这 个 语句 ， 然 后 
将 匹配 上 述 语法 规则 的 部 分 提取 出 来 。 


2. 6.5 是 一 个 舍 有 人 小数点 的 常量 ， 在 提取 这 类 向量 时 ， 能 人 否 用 "“ 数 
字 组 合 + 小 数 点 + 数字 组 合 ” 来 概括 所 有 第 量 的 特征 呢 《〈 还 要 考 碟 
是 人 否 允 许 00.10 这 样 的 数值 ) 。 当 然 我 们 的 提取 规则 还 要 能 处 理 2 
这 样 不 含 小 数 点 的 数值 。 


3. 乘法 运算 符 * 比 + 拥有 更 高 的 运算 优先 级 ， 语 句 必须 被 解析 为 b1 
+ (b2 * 8.5) 。 


4. b2 * 6.5 的 计算 结果 ， 必 须 在 与 b1 进行 加 法 运算 前 就 应 该 取 
I 
算 结 果 。 


假如 你 已 经 有 了 一 定 的 编程 经 验 ， 肯 定 能 想到 上 面 这 些 难 点 ， 甚 至 可 以 
说 你 的 编程 经 验 越 丰 富 ， 就 越 能 感受 到 这 其 中 隐藏 着 极 大 的 难题 。 


不 过 ， 编 程 语言 的 语法 处 理 器 在 FORTRAN 诞 生 后 已 经 经 过 了 多 年 的 研 
帘 ， 上 面 的 这 些 难 点 都 已 经 可 以 从 前 人 那里 找到 解决 方法 ”。 


* 当然 ， 在 早年 原始 的 研发 条 件 下 ， 人 们 为 了 开发 第 一 个 编程 语言 编译 器 还 是 花费 了 相当 大 的 
精力 ， 据 说 实现 初版 的 FORTRAN 编 译 器 所 花费 的 工时 ， 黑 计 达 到 了 216 人 月 口 ] 


在 本 书 中 ， 上 面 1 ~ 3 的 问题 会 用 到 名 为 yacc 及 lex 的 工具 。 问 题 1 和 问 
题 2 用 lex， 问 题 3 通过 yacc 解决 。yacc 和 lex 都 是 非常 老 的 工具 了 ， 现 在 
流行 的 LL 语言 大 多 内 置 了 yacc。 可 能 有 人 会 说 :“ 既 然 是 以 学 习 为 目的 
去 制作 一 门 编程 语言 ， 如 果 还 使 用 工具 的 话 就 太 投机 取 巧 了 吧 。”( 这 
ee 
决 方法 。 


无 论 是 使 用 工具 ， 还 是 基于 一 些 已 有 的 解决 方案 目 己 编写 ， 如 果 能 掌握 
一 些 究 门 的 话 ， 目 制 编程 语言 其 实 并 不 难 。 


那么 你 想 不 想 试 试 自 己 制作 一 门 编程 语言 呢 ? 自己 创造 编程 语言 这 件 事 
情 ， 不 管 怎 么 说 都 是 很 酷 的 吧 。 







































































1.3 ”本 书 的 构成 与 面 癌 读者 
本 书 由 以 下 的 章节 构成 : 


第 1 章 引子 

第 2 章 试 做 一 个 计算 器 

第 3 一 4 章 制作 无 类 型 语言 crowbar 

第 5 章 中 文 支持 与 Unicode 

第 6 一 8 章 制作 静态 类 型 的 语言 Diksam 

第 9 章 应 用 篇 

本 章 会 对 全 书 的 构成 以 及 讲解 方式 进行 
说 明 。 

第 2 章 通 过 制作 一 个 简单 的 计算 器 ， 介 绍 yacclex 的 基本 使 用 方法 。 其 实 
讲解 yacc/lex 的 部 分 ， 选 择 “ 计 算 器 ”为 例 实 在 有 点 老 套 ， 但 确实 没有 比 
这 更 合适 的 题目 了 。 此 外 还 会 介绍 如 何不 依赖 yacc， 使 用 递归 下 降 分 析 
器 (Recursive.Descent.Parser) 来 制作 一 个 计算 器 。 

从 第 3 章 开始 ， 会 实际 制作 有 一 定 行 数 规模 的 编程 语言 。 


3 一 4 章 会 制作 一 个 名 为 crowbar 的 无 类 型 解释 型 语言 ，6 一 8 章 则 主要 制 
作 名 为 Diksam 的 支持 静态 类 型 的 编译 型 语言 (名 字 的 由 来 会 在 后 文 提 
到 ) 。 在 第 5 间 中 ， 会 针对 使 用 编程 语言 时 的 中 文 支持 与 Unicode 问题 进 
行 说 明 。 

第 9 草图 释 闭 包 〈(Closure) 及 异常 处 理 机 制 等 进 阶 功能 。 

本 书 将 C 语 言 作为 编程 语言 语法 处 理 器 (编译 器 、 解 释 器 等 ) 的 编写 语 
言 (理由 见 后 文中 的 具体 说 明 )〉 。 而 crowbar 与 Diksam 最 终 都 会 累积 状 
具备 一 定 行 数 规模 的 程序 (crowbar 约 8000 行 ，Diksam 约 2 万 行 ) 。 

因此 ， 疯 读本 书 的 读者 最 好 具备 两 个 条 件 : 


1 已 经 会 C 语 言 


2. 具备 阅读 较 长 代码 的 能 
不 过 无 论 哪个 条 件 都 不 是 必须 的 。 









































对 于 条 件 1 需要 说 一 点 的 是 ，Java、C++、C# 等 都 是 从 C 语 言 发 展 出 来 的 
语言 ， 所 以 对 于 已 经 学 习 过 这 些 语言 的 人 来 说 ， 读 C 语 言 代码 不 会 特别 
吃力 。 像 预 处 理 程 序 、 指 针 等 C 语 言 特有 的 知识 ， 建 议 你 借 此 机 会 一 并 
学 习 一 下 。 因 为 至 少 就 现 阶段 来 说 ， 无 论 是 专家 还 是 业余 爱好 者 ， 但 几 
是 程序 员 都 免不了 要 用 到 C 语 言 。 而 在 crowbar 或 Diksam 中 ， 并 没有 使 用 
很 多 C 语 言 特有 的 功能 。 比 如 说 不 会 出 现 *p++ 这 种 不 易 理 解 的 写法 ， 更 
多 是 写成 数组 下 标的 形式 。 


对 于 条 件 2 要 说 的 是 ， 虽 然 一 个 语法 人 处理 器 整体 来 看 是 个 上 规模 的 程 
序 ， 但 是 其 基础 构成 的 部 分 并 不 会 很 庞大 。 本 书 不 会 对 每 一 行 代码 逐一 
进行 注释 ， 而 是 侧重 于 介绍 解决 问题 的 思路 ， 所 以 如 果 仅 仅 是 想 阅 读 一 
下 本 书 的 话 ， 是 不 需要 具备 疯 读 较 长 代码 的 经 验 的 。 但 知 你 最 后 不 满足 
于 书 中 的 讲解 ， 还 想 要 目 己 去 阅读 一 下 crowbar 或 者 Diksam 源 代码 的 

话 ， 因 为 代码 行 数 很 多 ， 编 程 经 验 尚 浅 的 朋友 读 起 来 可 能 会 有 压力 。 不 
过 无 论 是 业界 还 是 外 界 人 士 ， 作 为 程序 员 总 有 一 天 会 接触 到 大 规模 代码 
的 程序 ， 将 本 次 实践 作为 入 门 的 第 一 步 也 不 是 一 件 坏 事 。 


综 上 所 述 ; 
如 果 你 觉得 自己 不 是 本 书 所 面向 的 读者 ， 想 办 法 加 入 其 中 不 就 行 了 ? 

所 以 无 需 担 心 什么 ， 门 槛 其 实 没有 你 想 的 那么 高 。 凡 是 对 语法 处 理 器 有 
兴趣 的 朋友 都 是 本 书面 向 的 读者 。 

1.4 用 什么 语言 来 制作 

如 前 文 所 述 ， 本 书 将 使 用 C 语 言 作为 语法 处 理 器 的 编写 语言 。 


都 什么 年 代 了 还 用 C 语 言 ? 可 能 会 人 这 样 想 吧 。 其 实 束 连 我 自己 也 会 
这 样 想 。 


但 本 书 还 是 使 用 了 C 语 言 ， 其 中 一 个 理由 是 因为 yacc/lex 痢 是 面向 C 语 言 
的 工具 。 


yacc/lex 本 里 是 很 老 的 工具 。 老 工具 虽然 都 有 一 些 历史 遗留 问题 ， 但 也 
有 其 优点 ， 即 正 是 因为 历史 悠久 ， 所 以 会 积累 下 更 详尽 的 技术 文档 。 如 
前 文 所 述 ， 目 前 的 LL 语言 大 多 使 用 yacc。 





















































力 一 个 使 用 C 语 言 的 理由 是 : 想 要 降低 “依赖 程度 ”的 话 ，C 语 言 是 最 适 


口 


比如 说 用 Java 编 写 软 件 ， 运 行 环境 中 必须 安装 JVM (Java 虚 拟 机 〉 。 如 
果 用 C# 则 必须 要 安装 .NET Framework。 在 自制 编程 语言 的 理由 中 ， 我 
们 曾经 列举 了 “可 以 用 编程 语言 扩展 应 用 程序 ”这 一 条 ， 并 且 提 到 ， 如 果 
能 在 编写 应 用 程序 的 时 候 从 底层 到 扩展 全 部 自己 实现 会 更 加 放心 ， 其 目 
的 就 是 为 了 不 依赖 JVM 或 .NET Framework。 这 样 在 Java 或 .NET 版 本 升级 
时 也 就 无 需 操 心 了 。 


此 外 考虑 到 组 合 各 种 应 用 程序 这 个 用 途 ，C 语 言 在 众多 编程 语言 中 可 以 
说 是 最 具 通 用 性 的 。 无 论 被 组 合 的 应 用 程序 采用 何 种 语言 编写 ， 坚 无 疑 
问 都 可 以 调用 C 语 言 。 


1.5 要 制作 怎样 的 语言 
1.5.1 要 设计 怎样 的 语法 


编程 语言 有 很 多 种 ，C、C++、Java、C# 等 都 是 面向 过 程 的 编程 语言 
CC++、Java、C# 虽 然 也 被 称 为 面向 对 象 ， 但 可 以 把 面向 对 象 看 作 是 面 
癌 过 程 的 一 个 派生 ) 。 目 前 看 来 ， 虽 然 面 向 过 程 的 语言 是 主流 ， 但 还 存 
在 Haskell、ML 这 样 的 函数 式 编程 语言 。 隐 数 式 编程 语言 就 是 “变量 值 
无 法 被 更 改 ” 的 一 种 语言 ”。 


* 从 这 个 定义 来 说 ，Lisp 严 格 讲 还 不 能 算是 函数 式 编程 语言 。 


对 于 已经 习惯 了 面 同 过 程 语言 的 人 来 说 ， 肯 定 会 想 “ 变 量 值 无 法 更 改 还 
怎么 写 程序 呀 ”。 其 实 这 类 语言 已 经 编写 出 了 很 多 实用 的 程序 。 在 函数 
式 编程 的 基础 上 发 展 出 了 如 Prolog 这 样 的 逻辑 编程 语言 以 及 被 称 为 并 行 
程序 设计 语言 的 Erlang。 


不 过 目前 被 广泛 使 用 的 仍然 是 面 加 过程 的 编程 语言 ， 本 书 中 的 代码 示例 
使 用 的 也 都 是 面 同 过 程 的 语言 风格 ， 当 然 里 面 还 会 加 入 面 同 对 象 的 一 些 
功能 实现 。 在 本 书 中 ， 除 了 会 有 C++、Java、C# 这 种 基于 类 的 面向 对 象 
之 外 ， 也 会 涵盖 类 似 JavaScript 这 种 没有 类 的 面向 对 象 。 


语法 层面 上 ， 会 使 用 类 似 C 语 言 的 风格 。crowbar 的 示例 代码 如 代码 清音 















































1-1 所 示 ，Diksam 的 示例 代码 如 代码 清单 1-2 所 示 。 


代码 清单 1-1 crowbar 版 FizzBuzz 


for (i = 1; i < =160; i++) { 
if (i % 15 == 6) { 
print("FizzBuzz\n"); 
} elsif (i % 3 == 60) { 
print("Fizz\n"); 
} elsif (i % 5 == 6) { 


print("Buzz\n"); 
} else { 
print("" + i + "\n"); 


} 





代码 清单 1-2 Diksam 乒 FizzBuzz 
int i; 


for (i = 1; i <= 1060; i++) { 
if (i % 15 == 6) { 
println("FizzBuzz"); 
} elsif (i % 3 == 06) { 
println("Fizz"); 


} elsif (i % 5 == 6) { 
println("Buzz"); 

} else { 
println("" + i); 


} 





顺便 说 一 下 这 个 名 为 FizzBuzz 的 小 程序 ， 其 运行 机 制 如 下 : 


输出 从 1 到 100 的 数字 ， 如 果 为 3 的 倍数 时 ， 则 将 数字 蔡 换 为 Fizz，5 的 
倍数 时 则 输出 Buzz， 同 时 为 3 与 5 的 倍数 时 输出 FizzBuzz。 


这 个 小 程序 引 目 下 面 的 文章 。 文 章 大 意 是 建议 企业 在 面试 程序 员 时 ， 人 至 
少 应 聘 者 能 写 出 这 种 程度 的 代码 再 考虑 录用 。 


@ 为 什么 目 称 程序 员 的 人 写 不 出 程序 ? 








http:/www.aoky.net/articles/jeff_atwood/why_cant_programmers_prograrm 


看 了 示例 就 能 明白 ， 无 论 crowbar 还 是 Diksam， 都 是 与 C 语 言 非常 类 似 的 


语言 。 


如 上 所 述 ， 本 书 虽 然 会 创造 一 门 新 语言 但 仍然 会 用 到 C 语 言 ， 所 以 本 书 
所 面 问 的 读者 应 该 是 已 经 掌握 了 C 语 言 的 《还 没有 掌握 的 人 可 以 先 去 学 
习 一 下 ) 。 因 此 如 宁 选 择 C 语 言 风 格 的 语法 ， 读 者 应 该 会 感到 很 杀 切 ， 
更 重要 的 是 笔者 本 人 已 经 习惯 了 Java、C# 这 种 以 C 语 言 为 基础 的 编程 语 


O 











ll 





C 语 言 是 很 老 的 语言 了 ， 这 门 语言 不 是 在 前 期 经 过 严谨 的 设计 ， 而 是 在 
项 目 中 一 边 实 践 一 边 慢 慢 发 展 起 来 的 ， 因 此 语法 上 难免 有 很 多 考虑 不 周 
的 地 方 。 比 如 在 C 语 言 中 赋值 使 用 = ， 即 数学 中 的 等 号 。 而 C 程 序 员 在 初 
学 者 阶段 编写 if 语句 时 ， 肯 定 免 个 了 会 写成 这 样 : 











if (a = 8) { < 应 该 写 "==" 但 


} 





这 样 惨痛 的 教训 至 少 也 要 经 历 一 次 吧 。 赋 值 在 Pascal 等 语言 中 ， 一 般 使 
用 := 。 如 果 让 一 个 没有 编程 经 验 的 人 来 学 习 ，Pascal 这 种 语法 应 该 更 加 
友好 一 些 。 


不 过 我 现在 是 要 制作 一 门 新 的 编程 语言 ， 而 使 用 这 门 新 语言 的 人 应 该 都 
己 经 习惯 了 C 语 言 的 运算 符 ， 如 果 这 里 将 赋值 运算 符 定 为 := 的 话 反 而 会 
引起 混乱 ， 说 不 定 我 目 己 就 先头 晕 了 。 所 以 经 验 之 谈 是 ， 语 法 上 的 些许 
优 务 还 是 要 给 “习惯 ”让步 的 。 


一 一 出 于 这 种 考虑 ， 我 最 终 决 定制 作 一 门 与 C 语 言 类 似 的 编程 语言 。 


决定 语法 风格 是 编程 语言 创造 者 的 特权 。 如 果 顾 虑 用 户 习 惯 ， 可 以 参考 
并 整合 已 有 的 编程 语言 。 当 然 ， 也 可 以 完全 不 考虑 用 户 的 感受 ， 去 创造 
一 门 “ 理 想 的 语言 >。 虽然 我 是 以 C 语 言 的 语法 为 基础 ， 但 还 是 想到 了 以 
下 几 点 可 以 改进 的 地 方 。 


1. if 条 件 在 C 语 言 中 
以 省 略 。 但 是 这 经 























， 如 果 按 条 件 执 行 的 语句 只 有 一 句 ， 则 {} 可 
常会 造成 混乱 ， 很 多 项 目的 编码 规范 中 都 会 规 





定 必须 包含 {y 。 因 此 最 好 在 语法 层面 直接 将 {} 设置 为 不 可 省 略 
(crowbar、Diksam 均 如 此 ) 。 


2. 既然 已 经 将 if 条 件 中 的 {} 设置 为 不 可 省 略 ， 那 么 if 后 面 的 () 
要 怎么 办 昵 ?“【〔 关 于 这 一 点 ， 我 起 初 在 crowbar 中 尝试 了 一 下 省 
略 if 的 括号 ， 结 果 发 现在 crowbar 中 () 是 不 可 省 略 的 。) 


3. 伴随 看 语言 的 逐步 完善 ， 考 虑 到 要 增加 一 些 关 键 字 (参考 2.3.1 市 
的 补充 知识 ) ， 此 时 再 处 理 与 已 存在 程序 的 变量 名 相 冲 突 的 问题 
就 比较 麻烦 ， 所 以 考虑 在 所 有 的 变量 前 加 上 $ (Perl 或 PHP 等 的 
解决 方式 ) ， 或 者 将 关键 字 全 部 以 大 写字 母 开头 〈Modula-2 等 的 
解决 方式 ) 。 


4. switch case 语句 中 ， 最 好 能 去 掉 态 了 写 break 就 会 进入 下 一 
个 case 这 种 容易 产生 问题 的 设计 (Java 没 有 改进 这 一 点 ，C# 则 
做 了 一 些 半 而 了 的 改进 );。 

5. switch case 语句 中 ， 如 果 没 有 进入 任何 一 个 case 条 件 分 支 ， 
也 没有 写 default 分 支 ， 那 么 在 运行 时 直接 报错 会 不 会 更 好 一 些 
(Pascal 就 是 这 样 处 理 的 ) ? 


6. 编码 规范 通过 缩 进来 约束 怎么 样 ? 比如 像 Python 那 样 通 过 绾 进来 
表明 逻辑 结构 。 

7. 对 于 我 来 说 ， 阅 读 Python 风 格 的 代码 还 有 些 吃 力 ， 因 此 是 不 是 做 
成 像 C 语 言 那样 用 花 括 号 包 囊 语法 块 、 把 强制 缩 进 的 检查 交 给 编 
译 器 去 做 比较 好 呢 ? 


我 希望 读者 朋友 们 也 能 够 用 好 语言 开发 者 的 特权 ， 不 断 去 奶 求 “更 加 理 
想 的 语言 。 呢 ， 昌 然 我 这 样 讲 可 能 会 被 说 成 是 站 着 说 话 不 腰疼 吧 。 


1.5.2 ”要 设计 怎样 的 运行 方式 
程序 员 中 应 该 无 人 不 知 ， 编 程 语言 有 编译 型 语言 和 解释 型 语言 两 种 。 


编译 型 语言 中 ，C 和 C++ 比 较 有 代表 性 。 这 类 语言 通常 会 将 程序 员 编 写 
的 程序 源 代码 ， 最 终 输 出 为 机 器 人 码 的 可 执行 文件 。 




















但 是 想 要 输出 机 器 码 的 话 ， 必 须 首 移 掌 握 机 器 码 才 行 。 即 便 学 习 了 机 器 
码 并 写 出 了 编译 器 ， 该 编译 器 也 无 法 得 出 供 其 他 型 号 CPU 运行 的 文件 











*+ 为 了 解决 这 个 问题 ， 一 般 的 编译 器 都 会 将 依赖 CPU 生成 的 机 器 码 的 部 分 单独 归 为 一 个 名 
为 Backend 的 模块 ， 根 据 不同 的 CPU 可 以 更 换 相应 的 Backend， 就 可 以 支持 其 他 型 号 的 CPU 了 。 


这 类 生成 机 需 码 的 编程 语言 的 优点 是 运行 速度 非常 快 ， 但 是 编译 器 性 能 
优化 的 相关 技术 ， 学 习 起 来 非常 有 难度 。 另 外 ， 在 自制 编程 语言 的 理由 
中 曾经 列举 了 “可 以 用 编程 语言 扩展 应 用 程序 ?这 一 点 ， 而 输出 机 需 码 的 
编译 器 并 不 适合 这 个 用 途 。 因 此 本 书 中 会 选择 解释 型 语言 。 


虽说 “解释 型 语言 "只 是 一 个 词 ， 但 是 其 实现 方法 又 分 很 多 种 。 


解释 型 语言 的 “解释 ”一 词 源 目 英 语 的 interpreter ， 是 “能 进行 翻译 的 物 

体 ” 的 意思 。 编 译 嚣 将 源 代码 翻译 为 机 器 码 ， 之 后 CPU 直接 运行 机 器 人 码 
就 可 以 了 。 与 此 相对 的 解释 型 语言 ， 则 将 程序 员 编 写 的 源 代码 通过 解释 
器 这 一 程序 一 边 解析 一 边 运 行 这 种 公式 化 的 定义 看 起 来 只 有 简单 的 
两 个 步骤 ， 但 现实 中 几乎 不 存在 这 么 单纯 的 解释 型 语言 (DOS 的 批 处 

理 脚 本 或 UNIX 的 SHELL 脚本 是 最 接近 解释 型 语言 的 定义 的 ) 。 虽 说 名 
六 "解释 型 语言 ”， 但 其 中 的 大 多 数 都 会 将 源 代 码 临时 转换 为 某 种 中 间 形 
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比如 有 代码 清单 1-3 这 样 的 代码 。 
代码 清单 1-3 ”简单 的 站 语句 * 


if (a == 10) { 
printf("hoge\n"); 
} else { 


printf("piyo\n"); 























* 代码 中 的 hoge 、piyo 这 两 个 单词 ， 经 常 在 输出 无 意义 的 语句 时 使 用 〈 多 见于 日 本 ， 英 语 国 
家 则 较 多 使 用 foo 、bar ) 。 详 细 请 参考 以 下 的 页 面 : 


从 机 器 的 角度 看 ， 源 代码 其 实 只 是 一 些 文字 的 排列 组 合 而 已 ， 机 器 是 无 




















法 直接 运行 的 。 现 在 大 多 数 编程 语言 ， 都 会 将 代码 转换 成 一 种 叫 分 析 树 
(parse tree， 也 叫 语法 分 析 树 或 语法 树 ) 的 东西 。 上 面 的 代码 如 果 做 成 
分 析 树 ， 则 如 图 1-1 所 示 。 





图 1-1 分 析 树 示例 


Perl、Ruby 等 语言 ， 一 旦 将 代码 转换 为 分 析 树 后 ， 分 析 树 将 无 法 再 还 原 
回 源 代码 。 


本 书 第 2 章 以 后 所 用 到 的 语言 arowbar 就 是 采用 这 种 运行 方式 的 语言 。 


对 于 这 类 语言 来 说 ， 从 源 代 码 到 分 析 树 的 构建 过 程 还 是 得 称 为 编译 ”。 
但 是 这 里 的 编译 器 是 在 程序 启动 时 自动 执行 的 。 由 于 分 析 树 会 生成 在 内 
存 里 ， 因 此 不 会 生成 目标 代码 或 目标 文件 ， 所 以 程序 员 用户) 一 般 意 
识 不 到 有 编译 器 在 执行 。 这 类 语言 如 果 存 在 语法 错误 ， 会 在 刚 开 始 运行 
时 就 被 报 出 来 ， 这 正 是 源 代码 航 一 次 性 全 部 读 入 并 构建 分 析 树 的 证 明 。 
如 果 是 纯粹 的 解释 型 语言 ， 如 批 处 理 脚本 或 SHELL 脚本 ， 则 会 运行 到 
有 语法 错误 的 地 方才 会 报错 。 


那么 ， 相 对 于 Perl、Ruby 这 样 的 运行 分 析 树 型 语言 ， 在 Java 等 语言 中 ， 
取代 分 析 树 的 则 是 更 底层 的 字 节 码 ， 然 后 通过 解释 器 运行 字 节 人 码 。 字 市 




















码 只 是 一 些 简单 的 数字 排列 ， 为 了 尽 可 能 地 让 人 读 懂 字 节 码 ， 字 节 码 中 
的 所 有 指令 都 被 加 上 了 一 些 名 为 助 记 符 (mnemonic) 的 字符 ， 代 码 清 
单 1-3 的 源 代码 经 过 这 样 一 番 处 理 之 后 最 终 会 变 成 代码 清单 1-4 的 样子 

( 源 代码 中 的 printf 改 为 System.out.println ， 并 使 用 javap 输 
> 


代码 清单 1-4 ”Java 的 字 节 码 


: bipush 16 
: istore 1 

: iload 1 

: bipush 16 
: if _icmpne 
: getstatic 
: ldc 


: invokevirtual 
: goto 28 

: getstatic 

: ldc 

: invokevirtual 





本 书 第 5 章 以 后 所 用 到 的 语言 Diksam， 就 是 采用 这 种 运行 方式 的 语言 。 


在 Java 中 ， 编 译 占 生成 的 字 节 码 会 被 保存 在 class 文 件 中 。 但 是 在 Diksam 
中 ， 编 译 器 会 在 程序 启动 时 执行 ， 因 此 字 节 码 保存 于 内 存 中 ， 不 会 生成 
类 似 cdlass 文 件 的 东西 。 由 此 可 以 看 出 ， 从 用 户 的 角度 出 发 ， 不 需要 意识 
Rs 部 其 实 有 字 节 码 在 执行 。Python 也 是 使 用 了 类 似 的 处 理 机 

| 。 


补充 知识 “用 户 ” 指 的 是 谁 ? 

前 文 曾 写 道 “因此 程序 员 (用 户 ) 一 般 意识 不 到 有 编译 器 在 执行 。” 
通常 来 说 ， 用 户 是 指使 用 程序 员 编 写 的 程序 的 人 ， 但 是 在 这 里 ， 因 为 我 
们 是 要 制作 一 门 编程 语言 ， 所 以 本 书 中 的 用 户 应 该 是 指使 用 我 们 制作 的 
编程 语言 的 人 ， 即 程序 员 。 


这 种 指 代 在 操作 系统 、 类 库 、 编 程 语言 等 面 问 程 序 员 的 文档 中 经 名 出 
现 ， 不 过 可 能 有 读者 会 有 误解 ， 在 此 特别 补充 说 明 一 下 。 


























补充 知识 ”解释 堪 并 不 会 进行 翻译 
在 很 多 入 门 书 中 ， 提 到 编译 器 与 解释 器 时 ， 一 般 会 采用 以 下 说 明 ， 
编译 器 会 将 源 代码 一 次 性 全 部 翻译 为 机 器 码 。 
与 此 相对 的 解释 器 ， 不 会 事先 做 一 次 性 翻译 ， 而 是 在 运行 的 同时 ， 逐 
行 分 块 地 将 源 代码 翻译 为 机 器 码 。 
请 允许 我 说 句 老实 话 ， 这 样 的 说 明 是 完全 错误 的 。 


解释 器 会 将 源码 或 分 析 树 解析 为 字 节 码 这 种 中 间 形 态 ， 并 且 一 边 解析 一 
边 运行 ， 但 是 解释 器 并 不 会 将 源码 翻译 为 机 需 码 。 


Java 或 .NET Framework 都 具备 在 运行 的 同时 将 字 节 码 转 换 为 机 器 人 码 的 功 
能 ， 这 叫 作 “JIT (Just In Time) 编译 ?技术 ， 而 这 部 分 技术 并 不 属于 解 
释 堪 。 

那么 解释 器 具体 是 如 何 运 行程 序 的 呢 ? 读 到 后 面 你 就 会 明白 了 。 

1.6 ”环境 搭建 

1.6.1 搭建 开发 环境 

本 书 的 开发 语言 是 C 语 言 ， 辅 助 工具 是 yacc 和 ]lex。 

UNIX (包含 Linux 等 ) 大 部 分 都 已 经 预 装 了 开发 所 需 的 yacc 和 lex， 当 然 
也 有 例外 ， 而 Windows 则 默认 没有 预 装 。 不 过 无 需 担 心 这 些 ， 我 们 完全 
可 以 全 部 使 用 目 由 软件 来 搭建 一 个 可 用 的 开发 环境 。 

那么 ， 下 面 我 们 就 开始 介绍 这 些 软 件 的 获取 途径 。 

1. C 编 译 需 


免费 的 C 编 译 器 可 以 使 用 GNU 项 目 提供 的 GCC (GNU Compiler 
Collection ) 。 


Linux 等 免费 的 UNIX 环 境 下 大 多 都 预 装 了 GCC”。Windows 下 可 以 使 用 

















MinGW (Minimalist GNU for Windows) 。 





* 最 近 Linux 不 预 装 GCC 的 情况 似乎 越 来 越 多 了 。 


可 以 从 下 面 的 URL 下 载 。 


http://www.mingw.org/download.shtml 


安装 MinGW 时 ，UNIX 环 境 下 的 程序 会 将 构建 (build) 时 使 用 到 的 make 
工具 也 一 并 安装 。 不 过 ， 安 装 完毕 后 可 执行 文件 名 有 点 奇怪 ， 

是 mingw32-make.exe ， 我 将 其 复制 并 重 命名 为 gmake.exe 以 方便 使 
用 。 


2. cygwin 或 MSYS 





cygwin 是 可 以 运行 在 Windows 上 的 类 UNIX 环 境 。 比 如 说 想 在 命令 行 提 
示 符 中 列 出 当前 文件 夹 内 的 文件 时 ，Windows (DOS) 会 使 用 DIR 指 
令 ，UNIX 则 使 用 1s 指令 。 一 般 用 惯 了 UNIX 的 人 ， 往 往 会 在 Windows 的 
命令 行 提 示 符 中 不 自觉 地 敲 出 ls 却 篮 众 地 发 现 指令 不 存在 ， 而 安装 了 
cygwin 就 可 以 避免 这 样 的 情况 发 生 。 那 么 对 于 不 经 常 使 用 UNIX 的 人 还 
有 必要 装 cygwin 吗 ?因为 在 后 文中 提 到 的 bison 要 使 用 UNIX 中 的 m4 工 

有 具 ， 所 以 无 论 是 cygwin 还 是 MSYS， 至 少 还 是 要 安装 其 中 一 个 的 ”。 
MSYS 与 cygwin 都 是 在 Windows 上 模拟 UNIX 环 境 的 软件 。 


实 也 可 以 单独 安装 ， 但 似乎 没有 独立 的 安装 包 ， 可 能 会 非常 麻烦 。 
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cygwin 可 以 从 下 面 的 网 址 中 获取 : 


http://www.cygwin.com/ 


MSYS 可 从 MinGW 页 面 中 下 载 : 


http://www.mingw.org/download.shtml 


此 外 ， 因 为 cygwin 也 包含 GCC， 可 以 没有 MinGW 而 通过 cygwin 安 装 
GCC。 但 是 使 用 cygwin 安 装 的 GCC 编 译 ， 运 行 时 需要 依赖 cygwin1.dll 文 





如 所 以 还 是 使 用 MinGW 
方便 。 


3. bison 


如 果 环 境 无 法 直接 运行 yacc， 可 以 使 用 GNU 项 目 提供 的 bison。 


http://gnuwin32.sourceforge.net/packages/bison.htm 


4. flex 


同 理 ， 如 果 坏 境 无 法 直接 运行 lex， 可 以 使 用 lex 的 人 免费 版 flex。 


http://gnuwin32.sourceforge.net/packages/flex.htm 


补充 知识 ”关于 bison 与 flex 的 安装 


bison 由 GNU 项 目 提 供 。GNU 项 目 是 由 理 查 德 :斯 托 曼 (Richard Matthew 
Stallman) 创立 的 项 目 ， 目 标 在 于 建立 一 个 完全 相 容 于 UNIX 的 自由 软件 
环境 。 


GNU 项 目 提 供 的 软件 的 许可 证 为 GPL (通用 公共 许可 协议 ，General 
Public License〉。 粗 略 地 说 ，GPL 是 这 样 一 种 许可 证 : 


。 发行 GPL 的 程序 时 ， 必 须 公 开源 代码 并 且 声 明 源 代码 的 出 处 ; 

。 包含 GPL 源 代码 的 程序 ， 必 须 受 GPL 许 可 证 条 球 约 束 ; 

。 程序 即使 以 动态 链接 方式 使 用 GPL 程序 ， 也 必须 受 GPL 许 可 证 条 款 
约束 。 不 过 这 个 限制 在 LGPL 许 可 证 (Lesser GPL ) 中 有 所 放宽 。 


也 就 是 说 ， 你 的 程序 中 只 要 用 到 GPL 的 程序 ， 哪 怕 这 部 分 再 小 ， 你 的 程 
序 也 会 自动 变 成 GPL 程序 ， 必 须 与 源 代码 同时 公开 。 这 对 于 那些 为 了 防 
止 盗版 而 不 得 不 采取 一 些 措施 的 商用 软件 来 说 简直 是 致命 的 。 因 此 也 有 
人 戏称 GPL 的 这 个 特性 是 “GPL 传染 ?或 “GPL 病毒 ”。 


那么 bison 是 否 也 是 如 此 呢 ? 后 文 会 有 说 明 ，bison 的 作用 是 将 用 户 编写 
的 配置 文件 输出 为 C 语言 格式 的 代码 。 这 里 的 C 代码 中 会 包含 一 些 属 于 











bison 的 代码 。 那 么 是 不 是 说 使 用 bison 去 制作 编程 语言 ， 所 做 出 的 编程 
语言 在 发 行 上 也 必须 遵守 GPL 许可 证 呢 ? 关于 bison 输出 的 C 代码 这 一 

点 ， 是 GPL 的 一 个 特例 ， 可 以 不 受 GPL 许可 证 约束 。 此 处 在 GNU 项 目 

有 关 GPL 的 FAQ 页 面 中 有 如 下 的 记载 : 


位 巧 的 是 ，Bison 也 可 以 用 于 开发 非 自 由 软件 。 这 是 因为 我 们 明确 允 
许 在 Bison 的 输出 结果 中 包含 的 Bison 的 标准 解析 程序 可 以 不 受 限制 。 
J 是 因为 已 经 存在 与 Bison 类 似 的 工具 被 用 于 非 目 由 软 


http:/www.gnu.org/licenses/gpl-faqg.ja.html 











男 一 方面 ，flex 则 是 遵循 BSD 许 可 证 (Berkeley Software Distribution， 加 
州 大 学 伯克利 分 校 开 发 的 软件 套件 集合 ) 的 (不 是 修订 版 BSD)〉。BSD 
许可 证 的 程序 再 次 发 行 时 ， 文 档 中 必须 要 附加 BSD 的 版 权 信 息 。 


flex 会 像 bison 一 样 输出 C 代 码 ， 这 里 的 C 代 码 也 像 bison 一 样 ， 会 包含 一 
些 属于 flex 的 代码 。 但 是 这 部 分 代码 并 不 需要 附加 BSD 的 版 权 信息 。 
为 flex-2.5.34 携 带 的 COPYING 文 件 中 有 这 样 的 描述 : 





Note that the "flex.skl" scanner skeleton carries no copyright notice. You 
are free to do whatever you please with scanners generated using flex; for 
them, you are not even bound by the above copyright. 


1.6.2 本 书 涉 及 的 源 代 人 码 以 及 编译 器 
本 书 所 涉及 的 源 代 码 ， 可 以 在 作者 的 网 站 上 下 载 : 





http://avnpc.com/pages/devlang#download 


在 开始 撰写 本 书 之 前 ，crowbar 和 Diksam 就 已 经 存在 一 些 公 开 的 版 本 

了 ， 本 书 所 用 到 的 代码 都 对 其 进行 了 重新 的 整理 和 修正 ， 因 此 本 书 相 关 
的 代码 将 重新 以 book_ver 作为 版 本 写 。 比 如 本 书 最 开始 制作 的 crowbar 
的 版 本 号 就 是 crowbar book _ver.0.1。 


第 2 章 ” 试 做 一 个 计算 需 





yt 


2.1 yacc/lex 是 什么 





如 前 文 所 述 ， 本 书 会 使 用 yacc 和 lex 这 两 个 工具 。 本 章 中 将 利用 yacc/lex 
尝试 编写 一 个 简单 的 计算 器 程序 。 


一 般 编程 语言 的 语法 处 理 ， 都 会 有 以 下 的 过 程 。 
1. 词 法 分 析 


将 源 代码 分 割 为 知 干 个 记号 〈token) 的 处 理 。 
2. 语 法 分 析 


即 从 记号 构建 分 析 树 (parse tree) 的 处 理 。 分 析 树 也 叫 作 语法 树 
(syntax tree) 或 抽象 语法 树 (abstract syntax tree，AST)“。 





# 严 格 讲 ， 包 含 代 码 中 所 有 记号 的 叫 作 分 析 树 或 语法 树 ， 将 一 些 无 用 记号 剔除 的 才 叫 作 抽 象 语法 
树 ， 本 书 中 并 没有 特意 区 分 。 


3. 语义 分 析 


经 过 语法 分 析 生 成 的 分 析 树 ， 并 不 包含 数据 类 型 等 语义 信息 。 因 此 在 语 
义 分 析 阶 段 ， 会 检查 程序 中 是 否 含有 语法 正确 但 是 存在 逻辑 问题 的 错 

误 。 

一 般 来 说 执行 语义 分 析 时 主要 会 做 数据 类 型 的 解析 以 及 错误 检查 ， 但 本 
书 中 使 用 的 crowbar 语 言 并 没有 设置 变量 类 型 ， 因 此 也 不 会 进行 数据 类 
型 的 检查 ， 所 以 crowbar 并 不 存在 一 个 明确 的 语义 分 析 阶 段 (Diksam 中 
是 存在 这 个 阶段 的 ， 位 于 fix_tree.c 源 文件 中 ， 请 参考 本 书 6.3.4 节 ) 。 


4. 生成 代码 


如 果 是 C 语 言 等 生成 机 器 人 码 的 编译 器 或 Java 这 样 生 成 字 节 人 码 的 编译 器 ， 
在 分 析 树 构建 完毕 后 会 进入 代码 生成 阶段 。 

比如 说 有 如 下 的 代码 : 

if (a == 10) { 


printf("hoge\n"); 
} else { 
































printf("piyo\n"); 


} 





执行 词法 分 析 后 ， 将 被 分 割 为 如 图 2-1 所 示 的 记号 〔 每 一 个 块 就 是 一 个 
记号 ) : 


if (a==10) {printf ("hoge\n" ); }else {printf ( "piyo\n") 


图 2-1 分 割 为 记号 


对 此 进行 语法 分 析 后 构建 的 分 析 树 ， 如 图 2-2 所 示 〈 同 图 1-1)。 





条 件 表达 式 


图 2-2 让 语 句 的 分 析 树 


执行 词法 分 析 的 程序 称 为 词法 分 析 器 (lexical analyzer) ”。lex 的 工作 
就 是 根据 词法 规则 上 自动 生成 词法 分 析 器 。 


* 也 称 为 扫描 器 (lexer 或 scanner) 。 


执行 语法 分 析 的 程序 则 称 为 解析 器 (parser) 。yacc 就 是 能 根据 语法 规 
则 目 动 生成 解析 需 的 程序 。 


顺便 说 一 下 ，yacc 是 “Y et Another C ompiler C ompiler” 的 缩写 。 顾 名 思 
义 ，Compiler Compiler 就 是 生成 编译 器 的 编译 器 。yacc 其 实 只 能 生成 编 
译 器 的 一 部 分 (解析 器 部 分 ) ， 却 自称 编译 器 的 编译 器 ， 未 免 有 些 名 不 
副 实 。 而 在 yacc 诞 生 时 还 因为 存在 其 他 几 个 编译 器 的 编译 占 ， 所 以 yacc 
的 作者 干脆 取 “ 叉 一 个 (Yet Another) 编译 器 的 编译 器 ”之 意 ， 起 名 为 
yacc”。lex 则 只 是 简单 地 取 自 lex ical analyzer。 





* 最 近 这 样 的 例子 还 有 Ruby 的 VM 的 YARV， 即 “Y et A nother RubyV M” 的 缩写 ， 还 有 YAML 起 
初 也 是 叫 作 “Y et A nother M arkup L anguage”。 


2 ， 可 以 将 一 个 特殊 格式 的 定义 文件 输出 为 C 语 言 代 

















因为 两 者 都 是 很 老 的 工具 ， 所 以 数据 传递 都 采用 全 局 变量 的 方式 ， 现 在 
看 起 来 实在 有 些 人 简陋 。 即 便 如 此 ， 人 至 少 yacc 仍 然 作 为 Perll、Ruby 等 语言 
的 语法 处 理 器 活跃 在 第 一 线 。 词 法 分 析 器 则 相对 简单 ， 完 全 可 以 自己 编 
写 ， 所 以 正式 的 编程 语言 一 般 都 不 会 使 用 lex。 


yacc 与 lex 在 UNIX 的 标准 环境 下 大 多 都 已 经 预 装 了 ， 在 Windows 等 环境 


一 般 没 有 预 装 ， 所 以 需要 使 用 其 免费 的 替代 品 bison 和 flex (获得 方法 请 
参考 1.6.1 节 ) 。 


补充 知识 ”词法 分 析 右 与 解析 上 融 是 各 目 独 立 的 


如 前 文 所 述 ， 源 文件 的 语法 分 析 ， 首 先 要 经 过 词法 分 析 器 分 割 为 记号 ， 
然后 才 经 过 解析 器 做 语法 分 析 ， 是 这 样 一 个 分 工 合作 的 过 程 。 


常常 有 人 会 对 于 C 或 Java 提 出 这 样 的 疑问 : 


a+++++b; 


这 行 代码 明明 可 以 理解 为 a++ + ++b ， 为 什么 编译 器 还 会 报错 呢 ? 


正 是 因为 有 了 前 文 所 说 的 词法 分 析 器 与 解析 器 的 分 工 合作 机 制 ， 所 以 产 
生 错 误 也 就 不 难 理解 了 。 因 为 词法 分 析 器 先 于 语法 分 析 器 运行 ， 在 词法 
分 析 阶 段 还 无 法 获得 C 或 Java 的 语法 规则 ， 代 码 就 会 被 分 割 成 a ++ ++ 
+ b ， 从 而 导致 报错 。 


2.2” 试 作 一 个 计算 器 
回 不 了 解 yacc/lex 的 人 介绍 其 功能 的 话 ， 与 其 一 上 来 就 举 “ 用 yacc/lex 制 作 


编程 语言 ”的 例子 ， 不 如 先 从 一 些 简单 的 例子 讲 起 比较 好 。 所 以 我 们 以 
一 个 简单 的 “计算 器 ”为 例 做 介绍 。 




















将 计算 右 作 为 yacc/lex 的 示例 实在 有 些 老 套 ， 但 是 又 很 实用 。Windows 都 
会 预 装 一 个 带 有 图 形 界 面 的 计算 器 软件 ， 和 仔细 想来 ，PC 上 明明 有 好 用 
的 键盘 ， 却 还 要 用 鼠标 去 一 个 一 个 点 计算 器 上 的 按钮 未 免 有 些 傻 ! 。 正 
因为 Windows 的 计算 器 不 好 用 ， 所 以 有 很 多 人 会 选择 使 用 普通 的 计算 
器 。 可 明明 眼前 就 摆 着 高 性 能 的 电脑 ， 仿 要 用 买 来 的 计算 右 ， 同 样 也 显 
得 很 奇怪 ， 更 不 要 说 还 有 “附带 计算 器 功 能 的 鼠标 热 * 这 种 创意 产品 ， 就 
更 加 本 末 倒 置 了 。 无 论 是 Windows 目 带 的 计算 器 ， 还 是 从 日 杂 店 买 来 的 
计算 器 ， 都 从 上 面 看 不 到 运算 符号 的 优先 顺序 ， 也 无 法 直接 计算 带 括号 
的 式 子 《因为 看 不 到 前 一 个 输入 的 值 ) 。 几 十 个 数值 求 和 时 ， 你 会 不 会 
担心 万 一 中 间 输 错 了 该 怎么 办 ? 我 经 常会 。 


1 Windows 的 计算 器 支持 使 用 键盘 输入 ， 但 是 有 很 多 初级 用 户 并 不 知道 这 个 功能 ， 仍 然 用 鼠标 点 
击 。 此 外 一 些 迷 你 键盘 去 掉 了 数字 键盘 区 域 ， 在 上 面 使 用 计算 器 很 不 方便 。 译 者 注 

而 我 们 要 制作 的 计算 器 ， 会 通过 命令 行 方 式 启动 ， 可 以 通过 键盘 输入 整 
个 算式 ， 然 后 直接 显示 计算 结果 。 因 此 可 以 直观 地 看 到 运算 的 优先 顺 
序 ， 比 如 输入 


会 得 到 结果 7 而 不 是 9。 因 为 能 看 到 整个 算式 ， 所 以 还 可 以 很 容易 地 检查 
有 没有 输 错 。 


计算 器 的 指令 名 为 mycalc 。 一 个 实际 运行 的 例子 是 这 样 的 〈% 是 命令 提 
示 符 ) : 





































































































启动 mwycalc 











>>3.666666 
1+2*3 
>>7.666668 ”< 按 运算 优先 顺序 输 H 




















虽然 只 用 了 整数 ， 却 输出 “3.000000” 这 样 的 结果 ， 这 是 因为 mycalc 在 内 
部 完全 使 用 double 进行 运算 。 


2.2.1 lex 


lex 是 自动 生成 词法 分 析 右 的 工具 ， 通 过 输入 扩展 名 为 .1 的 文件 ， 输 出 
词法 分 析 器 的 C 语 言 代码 。 而 flex 则 是 增强 版 的 lgx， 而 且 是 免费 的 。 


词法 分 析 堪 是 将 输入 的 字符 串 分 割 为 记号 的 程序 ， 因 此 必须 首先 定 
义 mycalc 所 用 到 的 记号 。 


mycalc 所 用 到 的 记号 包括 下 列 项 目 : 

运算 符 。 在 mycalc 中 可 以 使 用 四 则 运算 ， 即 +、-、*、/。 

整数 。 如 123 等 。 

实数 。 如 123.456 等 。 

换行 符 。 一 个 算式 输入 后 ， 接 着 输入 换行 符 束 会 执行 计算 ， 因 此 这 
里 的 换行 符 也 应 当 设 置 为 记号 。 

在 lex 中 ， 使 用 正则 表达 式 定义 记号 。 

为 nycalc 所 编写 的 输入 文件 mycalc.] 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 mycalc.l 








4 








: %{ 
: #include <stdio.h> 


: #include "y.tab.h" 


: int 
: yywrap(void) 
{ 


return 1; 


ONQTOUWUPUWUDOP 


12: "+" return ADD; 

13: "-" return SUB; 
Ld return MUL; 

15: "/" return DIV; 

16: "\n" return CR; 

17: ([1-9][8-9]*)|18|([8-9]+\.[8-9]+) { 
18: double temp; 

19: sscanf(yytext, "%1lf", &temp); 
20: yylval.double value = temp; 
21: return DOUBLE LITERAL; 


23: [ \t]; 


25 : fprintf(stderr, "lexical error.\n"); 
26: exit(1); 

27: } 

28: %% 





代码 第 11 行 为 %% ， 此 行 之 前 的 部 分 叫 作 定义 区 块 。 在 定义 区 块 内 ， 可 
以 定义 初始 状态 或 者 为 正则 表达 式 命名 (即使 不 知道 正则 表达 式 的 具体 
内 容 也 可 以 命名 ) 等。 在 本 例 中 放置 了 一 些 C 代 码 。 


第 2 行 至 第 9 行 ， 使 用 %{ 和 %} 包 右 的 部 分 ， 是 想 让 生成 的 词法 分 析 器 将 
这 部 分 代码 原样 输出 。 后 续 程 序 所 需 的 头 文 件 #include 等 都 包含 在 这 
里 ， 比 如 第 三 行 用 #include 包含 进来 的 y.tab.h 头 文件 ， 就 是 之 后 yacc 自 
动 生成 的 头 文件 。 下 面 的 ADD 、SUB 、MUL 、DIV 、CR 
、DOUBLE_LITERAL 等 都 是 在 ytab.h 中 用 #define 定义 的 宏 ， 其 原始 出 
处 则 定义 于 mycalc.y 文 件 中 《〈 详 见 2.2.3 节 ) 。 这 些 宏 将 记号 的 种 类 区 分 
开 来 。 顺 便 附 上 表 2-1 说 明 记 号 的 具体 含义 。 


表 2-1 记号 及 其 含 》 





9 


加 法 (addition〉 运 算 符 + 





i 运算 符 - 
乘法 (multiplication〉 运 算 符 * 
除法 (division〉 运 算 符 / 





AN、 
回 车 符 (carriage return ) 
double 类 型 的 字面 常量 〈literal ) 


























第 5 行 到 第 9 行 定 义 了 一 个 名 为 yywrap() 的 函数 。 如 末 没 有 这 个 函数 的 
话 ， 就 必须 手动 链接 lex 的 库 文 件 ， 在 不 同 环境 下 编译 时 比较 麻烦 ， 

此 最 好 写 上 。 本 书 不 会 再 对 这 个 函数 做 深入 说 明 ， 简 单 知 道 其 作用 ， 下 
接 使 用 就 可 以 了 。 


第 12 行 到 27 行 是 规则 区 块 。 读 了 代码 就 能 明白 ， 这 一 部 分 是 使 用 正则 
表达 式 去 描述 记号 。 


* 关于 lex 的 正则 表达 式 ， 请 参考 2.2.2 节 。 





在 规则 区 块 中 遵循 这 样 的 书写 方式 : 一 个 正则 表达 式 的 后 面 紧 跟 若干 个 
空格 ， 后 接 C 代 码 。 如 宁 输 入 的 字符 串 匹 配 正则 表达 式 ， 则 执行 后 面 的 
C 人 代码。 这 里 的 C 代 码 部 分 称 为 动作 Action 。 


在 第 12 一 16 行 中 ， 会 找到 四 则 运算 符 以 及 换行 待 ， 然 后 通过 return 返 
回 其 特征 符 (identifier) 。 所 谓 特 征 符 ， 就 是 上 文 所 述 在 ytab.h 中 
用 #define 定义 、 用 来 区 别 记号 种 类 的 代号 。 


之 前 提 到 了 这 么 多 次 “ 记 写 ”， 其实 我 们 所 说 的 记号 是 一 个 总 称 ， 包 含 三 
部 分 含义 ， 分 别 是 : 


1. 记号 的 种 类 
比如 说 计算 器 中 的 123.456 这 个 记号 ， 这 个 记号 的 种 类 是 一 个 实 
数 (DOUBLE LITERAL ) 。 





2. 记号 的 原始 字符 
-个 记号 会 包含 输入 的 原始 字符 ， 比 如 123.456 这 个 记号 的 原始 
字符 就 是 123.456。 


3. 记号 的 值 
123.456 这 个 记号 代表 的 是 实数 123.456 的 值 的 意思 。 


对 于 + 或 - 这 样 的 记号 来 说 ， 只 需要 关注 其 记号 种 类 就 可 以 了 ， 而 如 果 
是 DOUBLE_LITERAL 记号 ， 记 号 的 种 类 与 记号 的 值 都 必须 传递 给 解析 
时 


第 17 行 的 正则 表达 式 ， 是 一 个 匹配 “数值 "用 的 正则 表达 式 。 表 达 式 匹配 
成 功 的 结果 ， 即 上 面 列举 的 记号 三 要 素 中 , “记号 的 原始 字符 ”会 在 相应 
动作 中 被 名 为 yytext 的 全 局 变量 〈 这 算是 lex 的 一 个 丑 的 设计 ) 引用 ， 
并 进一步 使 用 第 19 行 的 sscanf() 进行 解析 。 


动作 解析 出 的 值 会 存放 在 名 为 yylval 的 全 局 变量 中 (又 丑 一 次 ) 。 这 
个 全 局 变量 yylval 本 质 上 是 一 个 联合 体 (union〉， 可 以 存放 各 种 类 型 
记号 的 值 ( 在 这 个 计算 器 程序 中 只 有 double 类 型 ) 。 联 合体 的 定义 部 
分 写 在 yacc 的 定义 文件 mycalc.y 中 。 


到 第 28 行 ， 又 出 现 了 一 次 %%i 。 这 表示 规则 区 块 的 结束 ， 这 之 后 的 代码 
则 被 称 为 用 户 代 码 区 块 。 在 用 户 代 码 区 块 中 可 以 编写 任意 的 C 代 码 〈 例 


























子 中 没有 写 ) 。 与 定义 区 块 不 同 ， 用 户 代 码 区 块 无 需 使 用 %{ %} 包 囊 。 
2.2.2 ”简单 正则 表达 式 讲座 


lex 通 过 正则 表达 式 定 义 记 号 。 正 则 表达 式 在 Perl、Ruby 语 言 中 广泛 使 
用 ， 而 UNIX 用 户 也 经 常会 在 编辑 器 或 grep 命令 中 接触 到 。 本 书 的 读者 
可 能 未 必 都 有 这 样 的 技术 背景 ， 所 以 我 们 在 本 书 涉及 的 范围 内 ， 对 正则 
表达 式 做 一 些 简单 的 说 明 。 


在 代码 清单 2-1 的 第 17 行 中 有 这 样 一 个 正则 表达 式 ( 初 看 可 能 稍微 有 挟 


复杂 ) : 


([1-9][e-9]*)|e|([e-9]+\.[0-9]+) 


首先 ，[ 与 ] 表示 匹配 此 范围 内 的 任意 字符 。 而 [ ] 还 支持 使 用 连接 符 
的 缩写 方式 。 比 如 写 1-9 与 写 123456789 是 完全 一 样 的 。 


最 初 圆 括号 中 的 [1-9] 代表 匹配 1~9 中 任意 一 个 数字 。 其 后 的 [6-9] 代 
表 [ 匹 配 0~9 的 任意 一 个 数字 。 

在 此 之 后 的 * ， 代 表 [ 匹 配 前 面 的 字符 ”0 次 或 多 次 。 

* 因 为 后 面 还 会 有 [6-9]* 这 样 的 写法 ， 所 以 严格 讲 ，“ 匹 配 前 面 的 字符 ”说 成 < 匹配 前 面 的 表达 
式 " 更 好 些 。 

因此 ，[1-9][86-9]* 这 个 正则 表达 式 ， 整 体 代 表 以 1 一 9 开头 〈 只 有 1 
位 ) ， 后 接 0 个 以 上 的 0 一 9 的 字符 。 而 这 正 是 我 们 在 mycalc 中 对 整数 所 
做 的 定义 。 


人 右 干 字符 串 ， 并 展示 其 是 否 匹 配 我 们 所 制定 的 整数 规 
则 。 





























表 2-2 字符 串 的 匹配 
否 为 整数 备注 


5 匹配 `[1-9] 











310 | 后 面 的 10 匹 配 `[0-9]*、 


012 否 开头 的 0 不 匹配 `[1-9] 


开头 的 0 不 匹配 `[1-9] 





如 上 表 所 示 ，mycalc 不 会 将 912 这 样 的 输入 作为 数值 接收 ， 这 完全 符 
合 我 们 的 预期 。 


但 是 将 0 也 排除 的 话 还 是 有 问题 的 ， 程 序 必须 
在 正则 表达 式 中 又 使 用 了 | 。| 代表 “或 ”的 意 


第 17 行 的 正则 表达 式 束 被 修正 为 : 


([1-9][6-9]*)|le|([0-9]+\,10-9]+) 


现在 应 该 可 以 明白 前 半 有 段 正则 表达 式 的 整体 意思 了 ， 即 将 整数 0 以 
ee eee aa nn 
这 部 分 作为 一 个 集合 才能 通过 | 与 0 并 列 ) 。 


后 半 部 分 的 [6-9]+\.[86-9]+ 中 用 到 了 + 。* 是 代表 “匹配 前 面 的 字符 0 
次 或 多 次 ”， 而 + 则 是 “匹配 前 面 的 字符 1 次 或 多 次 ”， 因 此 这 部 分 整体 代 
表 “0 一 9 的 数字 人 至少 出 现 一 次 ， 后 接 小 数 点 . 后 又 接 至 少 一 位 0 一 9 数 
字 ”。 这 些 与 前 面 整合 起 来 ， 共 同 构成 了 mycalc 对 于 实数 的 定义 。 


小 数 点 的 书写 不 是 只 写 
特殊 的 含义 〈 后 文 即将 介绍 ) ， 所 以 需要 使 用 \ 转 义 。[ ]、 

等 这 些 在 正则 表达 式 中 有 特殊 含义 的 字符 称 为 元 字符 ， 元 字符 证 以 泊 
上 文 那样 用 \ 或 双 引 号 进行 转 义 。 人 代码 的 第 12 一 14 行 ， 就 是 使 用 双 引 
号 转 义 的 方法 对 乘法 和 加 法 的 运算 符 进 行 了 定义 。 


1 正则 表达 式 有 很 多 不 同 的 风格 ，lex 所 使 用 的 风格 支持 使 用 双 引 号 转 义 元 字符 ， 而 常用 的 PCRE 
风格 则 只 支持 反 斜 线 转 义 。 一 一 译 者 注 


第 23 行 的 正则 表达 式 [ \t] 是 对 空格 以 及 制 表 符 进行 匹配 ， 对 应 动作 为 
空 ， 因 此 可 以 忽略 每 一 行 的 空白 字符 。 


第 24 行 的 , 会 匹配 任意 一 个 字符 。 这 里 用 于 检测 是 否 输入 了 程序 不 允许 
4 字符 


因此 


站 
号 









































首先 ，lex 将 输入 的 字符 串 分 割 到 大 二 个 记号 中 时 ， 会 尽 可 能 选择 较 长 
的 匹配 。 比 如 C 语 言 中 同时 有 + 运算 符 和 ++ 运算 符 ， 那 么 当 输 入 ++ 时 ， 
lex 不 会 匹配 为 两 个 + 运算 符 ， 而 是 返回 一 个 ++ (如 果 不 按 这 个 逻辑 ， 
程序 很 难 正 第 工作 〉。 如 果 两 个 规则 出 现 同样 长 度 的 匹配 时 ， 会 优先 匹 
配 前 一 个 规划 。 也 残 是 说 ， 如 果 输 入 字符 直到 最 后 一 条 规则 (匹配 任意 
0 说 明 这 个 字符 不 符合 前 面 所 有 的 规则 ， 是 错误 
J 和 输入。 


在 表 2-3 中 列举 了 一 些 常 用 的 元 字符 。 元 字符 以 外 的 字符 直接 书写 就 可 
以 了 。 


表 2-3 lex 中 正则 表达 式 的 元 字符 


L 配 0 个 或 者 多 个 前 面 的 字符 
匹配 1 个 或 者 多 个 前 面 的 字符 
[ 配 任意 1 个 字符 
匹配 a 或 b 或 c 

匹配 a-c 的 字符 

匹配 a~c 以 外 的 字符 

被 包裹 的 字符 不 会 被 作为 元 字符 ， 而 是 匹配 


转 义 后 面 的 元 字符 


2.2.3 yacc 



























































yacc 是 自动 生成 语法 分 析 器 的 工具 ， 输 入 扩展 名 为 .y 的 文件 ， 吏 会 输出 
I C 语 言 代 码 。bison 则 是 GNU 项 目 所 发 布 的 yacc 的 功能 扩充 
友 。 

mycalc 中 yacc 的 输入 文件 mycalc.y 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 mycalc.y 





%{ 

: #include <stdio.h> 
: #include <stdlib.h> 
: #define YYDEBUG 1 
%} 

: %union { 


OUUPUWUDOP 


52 : 
53: 


int int_value; 
double double value; 


} 
%token <double value> DOUBLE_LITERAL 


: %token ADD SUB MUL DIV CR 
: %type <double value> expression term primary_ expression 
: %% 


line list 
line 
| line list line 
3 
line 
: expression CR 


{ 
} 


printf(">>%1f\n", $1); 


: expression 


: term 
| expression ADD term 


{ 
} 


| expression SUB term 


$$ = $1 + $3; 


$$ = $1 - $3; 


: term 


primary_expression 
| term MUL primary_expression 


$$ = $1 * $3; 
| term DIV primary_expression 


$$ = $1 / $3; 


2 
primary_expression 


DOUBLE_LITERAL 


: %% 


int 


: yyerror(char const *str) 


{ 


extern char *yytext; 
fprintf(stderr, "parser error near %s\n", yytext); 
return 0; 


55: } 


56: 

57: int main(void) 

58: { 

59 : extern int yyparse(void); 
60: extern FILE *yyin; 

61: 

62: yyin = stdin; 

63: if (yyparse()) { 

64: fprintf(stderr, "Error ! Error ! Error !I\n"); 
65: exit(1); 

66: } 

67: } 





第 1 一 5 行 与 ex 相同 ， 使 用 %{%} 包 于 了 一 些 C 代 码 。 


第 4 行 有 一 句 #define YYDEBUG 1 ， 这 样 将 全 局 变量 yydebug 设置 为 一 
个 非 零 值 后 会 开启 Debug 模 式 ， 可 以 看 到 程序 运行 中 语法 分 析 的 状态 。 
我 们 现在 还 不 必 关 心 这 个 。 


第 6 一 9 行 声明 了 记号 以 及 非 终结 符 的 种 类 。 正 如 前 文 所 写 ， 记 号 不 仪 
需要 包含 种 类 ， 还 需要 包含 值 。 记 号 的 值 可 能 会 有 很 多 类 型 ， 这 些 类 型 
都 声明 在 联合 体 中 。 本 例 中 为 了 方便 说 明 ， 定 义 了 一 个 int 类 型 的 
int_value 和 double 类 型 的 double_value ， 不 过 目前 还 没有 用 

到 int_Vvalue 。 


非 终 结 符 是 由 多 个 记号 共同 构成 的 ， 即 代码 中 的 line_list 、1ine 
、expression 、term 这 些 部 分 。 为 了 分 割 非 终结 符 ， 非 终结 符 最 后 都 
会 以 一 个 特殊 记号 结尾 。 这 种 记号 称 作 终结 符 。 


第 10 一 11 行 是 记号 的 声明 。mycalc 所 用 到 的 记号 种 类 都 在 这 里 定 

义 。ADD 、SUB 、MUL 、DIV 、CR 等 记号 只 需要 包含 记号 的 种 类 就 可 以 
了 ， 而 种 类 为 DOUBLE_LITERAL 的 记号 ， 其 种 类 被 指定 为 

<double_ value> 。 这 里 的 double_value 是 来 自 上 面 代 码 中 %union 
联合 体 的 一 个 成 员 名 。 


第 12 行 声明 了 非 终结 符 的 类 型 ， 并 指明 了 这 些 非 终结 符 的 值 在 联合 体 中 
对 应 的 成 员 名 。 








与 lex 一 样 ，13 行 的 %% 为 分 界 ， 之 后 是 规则 区 块 。yacc 的 规则 区 块 ， 由 
语法 规则 以 及 C 语 言 编写 的 相应 动作 两 部 分 构成 。 


在 yacc 中 ， 会 使 用 类 似 BNF 〈 巴 科斯 范式 ，B ackusN ormal F orm ) 的 规 
范 来 编写 语法 规则 。 


计算 需 程 序 因为 规则 部 分 中 混杂 了 动作 ， 阅 读 起 来 有 点 难度 ， 所 以 在 代 
码 清 单 2-3 中 ， 仅 仅 将 规则 部 分 抽出 ， 并 加 入 了 注释 。 


代码 清单 2-3 ”计算 井 的 语法 规则 


: line list /* 多 行 的 规则 */ 
: : line /* 单行 */ 





























| line_list line /* 或 者 是 一 个 多 行 后 接 单 行 */ 

















: line /* 单行 的 规则 */ 
: : expression CR /* 一 个 表达 式 后 接 换行 符 */ 


: expression /* 表达 式 的 规则 */ 
term /* 项 目 */ 
expression ADD term /* 或 表达 式 + 和 项 
expression SUB term /* 或 表达 式 - 和 项 

















/* 和 项 的 规则 */ 

: primary_expression /* 一 元 表达 式 */ 
term MUL primary_expression /* 或 项 目 * 一 元 表达 式 */ 
term DIV primary_expression /* 或 项 目 / 一 元 表达 式 */ 














: primary_expression /*“ 一 元 表达 式 ” 的 规则 */ 
: DOUBLE_LITERAL /* 实数 的 源 文本 */ 


了 








为 了 看 得 更 清楚 ， 可 以 将 语法 规则 简化 为 下 面 的 格式 : 





即 A 的 定义 是 B 与 C 的 组 合 ， 或 者 为 D。 


第 1 一 4 行 的 书写 方式 ， 是 为 了 表示 该 语法 规则 在 程序 中 可 能 会 出 现 一 次 
以 上 。 在 mycalc 中 ， 输 入 一 行 语句 然后 裔 回 车 键 后 就 会 执行 运算 ， 之 
后 还 可 以 继续 输入 语句 ， 所 以 需要 设计 成 文 持 出 现 一 次 以 上 的 模式 。 


另外 ， 请 注意 在 上 面 的 计算 器 的 语法 规则 中 ， 语 法 规则 本 身 就 包含 了 运 
算 符 的 优先 顺序 以 及 结合 规律 。 如 果 不 考 虑 运算 符 的 优先 顺序 〈 乘 法 应 
该 比 加 法 优先 执行 ) ， 上 文 的 语法 规则 应 该 写成 这 样 。 





expression /* 表达 式 的 规则 */ 
: primary_expression  /* 一 元 表达 式 */ 
| expression ADD expression /* 或 表达 式 + 表 i 
| expression SUB expression  /* 或 表达 式 ”- 表 i 
| 
| 





expression MUL expression /* 或 表达 式 * 表 1; 
expression DIV expression /* 或 表达 式 / “表达 式 */ 
primary_expression /*“ 一 元 表达 式 ” 的 规则 */ 
: DOUBLE_LITERAL /* 实数 的 源 文本 */ 


了 








那么 在 这 样 的 语法 规则 下 ，yacc 是 如 何 运 作 的 呢 ? 我 们 以 代码 清单 2-3 为 
例 一 起 来 看 看 吧 。 


大 体 上 可 以 这 样 说 ，yacc 所 做 的 工作 ， 可 以 想象 成 一 个 类 似 “ 俄 罗斯 方 
块 ” 的 过 程 。 


首先 ，yacc 生 成 的 解析 器 会 保存 在 程序 内 部 的 栈 ， 在 这 个 栈 中 ， 记 和 号 就 
会 像 俄 罗斯 方块 中 的 方块 一 样 ， 一 个 个 堆积 起 来 。 


比如 输入 1 + 2 * 3 ， 词 法 分 析 器 分 割 出 来 的 记 写 (最 初 是 1 ) 会 由 
右边 进入 栈 并 堆积 到 左边 。 











Next 


像 这 样 一 个 记号 进入 并 堆积 的 过 程 ， 叫 作 移 进 (shift〉。 


mycalc 所 有 的 计算 都 是 采用 double 类型 ， 所 以 记号 1 即 
是 DOUBLE_LITERAL 。 当 记号 进入 的 同时 ， 会 触发 我 们 定义 的 规则 : 


primary_expression 
: DOUBLE_ LITERAL 





然后 记号 会 被 换 成 primary_expression 。 


[| 
primary expression 


类 似 这 样 触发 某 个 规则 并 进行 置换 的 过 程 ， 叫 作 归 约 (reduce) 。 


primary_expression 将 进一步 触发 规则 : 


term 
: primary_expression 





然后 归 约 为 term 。 


再 进一步 根据 规则 : 


expression 
: term 





最 终 被 归 约 为 一 个 expression 。 


[| 
expression 





接 下 来 ， 记 号 + 进入 。 在 进入 过 程 中 ， 由 于 没有 匹配 到 任何 一 个 规则 ， 
所 以 只 好 老 老 实 实地 进行 移 进 而 不 做 任何 归 约 。 


Next 
回 
expression 加 


接 下 来 是 记号 2 进入 。 





expression| + :| | :| 


经 过 上 述 同 样 的 规则 ， 记 号 2 (DOUBLE LITERAL ) 会 经 过 
primary_expression 被 归 约 为 term 。 


expression term 


这 里 记号 2 本 应 该 匹配 到 如 下 的 规则 : 


expression 
| expression ADD term 


yacc 和 俄罗斯 方块 一 样 ， 可 以 预先 读 取 下 一 个 要 进入 的 记号 ， 这 里 我 们 
就 可 以 知道 下 一 个 进入 的 会 是 * ， 因 此 应 当 考 虑 到 记号 2 会 匹配 到 term 
规则 的 可 能 性 。 


term 
| term MUL primary_expression 


归 约 完毕 后 再 一 次 移 进 。 





Next 





expression term 


接 下 来 记号 3 进入 ， 


Next 


expression term “» 


被 归 约 为 primary_expression 后 ， 





Next 





expression term primary expression 


YY 


term 、* 、primary expression 这 一 部 分 将 匹配 规则 : 


term 
| term MUL primary_expression 





被 归 约 为 term 。 


Next 





之 后 ，expression 、+ 、 term 又 会 匹配 规则 


expression 
| expression ADD term 





最 终 被 归 约 为 expression 。 


expression 


每 次 触发 归 约 时 ，yacc 都 会 运行 该 规则 的 相应 动作 。 比 如 乘法 对 应 执行 
的 规则 如 下 文 所 示 。 


Next 


| term MUL primary_expression 


$$ = $1 * $3; 
} 





动作 是 使 用 C 语 言 书写 的 ， 但 与 普通 的 C 语 言 义 略 有 不 同 ， 挫 杂 了 一 些 
$$ 、$1 、$3 之 类 的 表达 式 。 


这 些 表 达 式 中 ，$1 、$3 的 意思 是 分 别 保存 了 term 

与 primary_expression 的 值 。 即 yacc 输 出 解析 器 的 代码 时 ， 栈 中 相应 
位 置 的 元 素 将 会 转换 为 一 个 能 表述 元 素 特征 的 数组 引用 。 由 于 这 里 的 $2 
是 乘法 运算 符 (* ) ， 并 不 存在 记号 值 ， 因 此 这 里 引用 $2 的 话 就 会 报 


错 。 


$1 与 $3 进行 乘法 运算 ， 然 后 将 其 结果 赋 给 $$ ， 这 个 结果 值 将 保留 在 栈 
0 执行 的 计算 为 2 * 3 ， 所 以 其 结果 值 6 会 保留 在 栈 
(如 图 2-3) 。 
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图 2-3” 归 约 发 生 时 栈 的 动作 


喷 ，$1 与 $3 对 应 的 应 该 是 term 和 primary_expression ， 而 不 是 2 与 
3 这 样 的 DOUBLE_LITERAL 数值 才 对 呀 ， 为 什么 会 作为 2* 3 来 计算 
呢 ? 


可 能 会 有 人 提出 上 面 的 疑问 吧 。 这 是 因为 如 果 没 有 书写 动作 ，yacc 会 自 
动 补 全 二 个 { $$ = $1; } 的 动作 。 当 DOUBLE_LITERAL 被 归 约 
为 primary_expression 、primary_expression 被 归 约 为 term 的 时 
候 ，DOUBLE_LITERAL 包含 的 数值 也 会 被 继承 。 





: primary_expression 


$$ = $1; /* 自动 补 全 的 动作 */ 
} 





: primary_expression 
: DOUBLE_ LITERAL 


动 补 全 的 动作 */ 








$$ 与 $1 的 数据 类 型 ， 分 别 与 其 对 应 的 记号 或 者 非 终 结 符 的 类 型 一 致 。 
比如 ，DOUBLE_LITERAL 对 应 的 记号 被 定义 为 : 


9: %token “double value> DOUBLE_LITERAL 


expression 、term 、primary_expression 的 类 型 则 为 : 


11: %type <double value> expression term primary_expression 


这 里 的 类 型 被 指定 为 <double_value> ， 其 实 是 使 用 了 在 %union 部 分 
声明 的 联合 体 中 的 double_value 成 员 。 

由 于 我 们 以 计算 器 为 例 ， 计 算 器 的 动作 会 继续 计算 得 出 的 值 ， 但 仅 靠 这 
些 还 不 足以 制作 编程 语言 。 因 为 编程 语言 中 都 会 包含 简单 的 循环 ， 而 语 
法 分 析 只 会 运行 一 次 ， 所 以 动作 还 要 支持 循环 处 理 同 一 处 代码 才 行 。 


因此 在 实际 的 编程 语言 中 ， 会 从 动作 中 构建 分 析 树 。 这 部 分 处 理 的 方法 
会 在 后 面 的 章节 中 介绍 。 


2.2.4 生成 执行 文件 
接 下 来 ， 让 我 们 实际 编译 并 链接 计算 器 的 源 代 码 ， 生 成 执行 文件 吧 。 


在 标准 的 UNIX 中 ， 按 顺序 执行 下 面 的 指令 (% 是 命令 行 提示 符 ) ， 怠 
会 输出 名 为 mycalc 的 执行 文件 。 








% yacc -dv mycalc.y < 运行 yacc 


% lex mycalc.1 < 运行 1ex 








% cc -o mycalc y.tab.c lex.yy.c < 使 用 C 编 译 器 编译 

















如 果 在 Windows 的 环境 下 ， 参 考 1.6.1 节 中 的 说 明 ， 需 要 安装 gcc、 
bison、flex， 然 后 运行 下 面 的 指令 〈C:NTest> 是 命令 行 提 示 符 ) 。 











C:\Test>bison --yacc -dv mycalc.y < 用 bison 代 替 yacc 并 运行 
C:\Test>flex mycalc.1 < 运行 flex 


C:\Test>gcc -o mycalc y.tab.c lex.yy.c < 使 用 C 编 译 器 编译 





这 个 过 程 中 会 生成 耕 干 文件 。 其 流程 以 图 片 表示 的 话 ， 如 图 2-4 所 示 。 





图 2-4 ”yacc/lex 的 编译 


y.tab.c 中 包含 yacc 生 成 的 语法 分 析 器 的 代码 ，lex.yy.c 是 词法 分 析 器 的 代 
人 码 。 为 了 将 mycalc.y 中 定义 的 记号 及 联合 体 传递 给 lex.yy.c，yacc 会 生成 
y.tab.h 这 个 头 文件 。 


此 外 ， 作 为 C 语 言 程序 当然 要 有 main() 函数 ， 在 mycalc 中 main() 位 于 
mycalc.y 的 用 户 代 码 区 块 (第 49 行 以 后 )， 最 终 编译 器 会 负责 合并 代 
码 ， 所 以 这 里 的 main() 与 其 他 .c 文 件 分 离 也 不 要 紧 。 在 main() 函数 中 的 
全 局 变量 yyin 可 以 设 定 输 入 文件 ， 调 用 yyparse() 函数 。 

由 于 我 们 使 用 bison 蔡 代 了 yacc， 默 认 生 成 的 文件 束 不 是 y.tab.c 和 
y.tab.h， 而 是 mycalc.tab.c 和 mycalc.tab.h。 所 以 在 上 例 中 添加 了 --yacc 参 


数 ， 可 以 让 bison 生 成 与 yacc 同 名 的 文件 。 本 书 为 了 统一 ，bison 会 始终 带 
上 --yacc 参数 。 


2.2.5 ”理解 冲突 所 代表 的 含义 


实际 用 yacc 试 作 一 下 解析 器 ， 可 能 会 被 冲突 (conflict〉 问题 困扰 。 所 谓 
冲突 ， 就 是 遇 到 语法 中 模糊 不 清 的 地 方 时 ，yacc 报 出 的 错误 。 


比如 C 语 言 的 让 语句 ， 就 很 明显 有 语法 模糊 问题 。 








0 
if (b == 0) 
printf( 在 这 里 a 与 b 都 为 6\n); 


printf( 这 里 是 a 非 6? 错 ! \n); 











上 面 的 代码 中 ， 我 们 不 清楚 最 后 的 else 对 应 的 究竟 是 哪 一 个 if ， 这 就 
征 冲 突 。 


yacc 运 行 时 ， 通 到 下 面 任意 一 种 情况 都 会 发 生 冲突 。 


。 同时 可 以 进行 多 个 归 约 。 
。 满足 移 进 的 规则 ， 同 时 又 满足 归 约 的 规则 。 


前 者 称 为 归 约 / 归 约 (reduce/reduce) 冲突 ， 后 者 称 为 移 进 / 归 约 
(shift/reduce 〉 冲 突 。 


即便 发 生 冲 突 ，yacc 仍 然 会 生成 解析 旨 。 如 果 存 在 归 约 / 归 约 冲突 ， 则 优 
先 匹 配 前 面 的 语法 规则 ， 移 进 / 归 约 冲突 会 优先 匹配 移 进 规则 。 很 多 书 

会 写 归 约 / 归 约 冲突 是 致命 错误 ， 而 移 进 / 归 约 冲 突 则 允许 ， 这 两 者 的 确 

古 存 在 严重 程度 的 差别 ， 但 是 在 我 来 看 ， 无 论 发 生 哪 一 种 冲突 都 是 难以 
容 妨 的 ， 我 恨不得 消灭 代码 中 所 有 的 冲突 问题 。 


yacc 运 行 时 可 以 附带 -v 参数 ， 标 准 yacc 会 生成 y.output 文 件 (bison 则 会 
将 输入 文件 名 中 的 扩展 名 .y 替 换 为 .output 并 生成 ) 。 


这 个 y.output 文 件 会 包含 所 有 的 语法 规则 、 解 析 器 、 所 有 可 能 的 分 文 状 
态 以 及 编译 器 启动 信息 。 











那么 我 们 实际 做 出 一 个 名 突 ， 然 后 观察 一 下 y.output 文 件 吧 。 
将 代码 清单 2-2 中 的 语法 规则 


23: expression 


24 : : term 
25: | expression ADD term < 将 这 里 的 ADD 





更 改 为 下 文 所 示 : 


23: expression 
24: : term 














25: | expression MUL term 





变更 后 会 产生 3 个 移 进 / 归 约 冲突 。 


% yacc -dv mycalc.y 
conflicts: 3 shift/reduce 


| 


然后 再 看 y.output 文 件 。 


根据 yacc 或 bison 的 版 本 与 语言 设置 ，y.output 的 输出 会 有 微妙 的 区 别 。 
这 里 以 bison2.3 英 文 模式 为 例 〈 为 了 节约 纸张 将 空 行 都 去 掉 了 ) 。 日 语 
环境 下 , “Grammar” 会 变 成 “文法 ”等 ， 错 误 信 息 也 都 会 显示 为 日 语 。 
总 体 来 说 ，y.output 文 件 的 前 半 部 分 看 起 来 基本 都 会 是 下 面 这 个 样子 
(代码 清单 2-4) 。 


代码 清单 2-4 youtput (前 半 部 分 ) 


Terminals which are not used < 没有 使 用 ADD 的 警告 
ADD 





State 5 conflicts: 1 shift/reduce < 冲突 信息 〈 见 下 文 ) 
State 14 conflicts: 1 shift/reduce 
State 15 conflicts: 1 shift/reduce 


Grammar 
© $accept: line list $end 
line list: line 
| line list line 
line: expression CR 
expression: term 
| expression MUL term 


term: primary_expression 
| term MUL primary_expression 
| term DIV primary_expression 


1 
2 
3 
4 
5 
6 | expression SUB term 
7 
8 
9 
© primary_expression: DOUBLE LITERAL 





首先 将 ADD 改 为 MUL 后 ， 开 头 会 出 现 *ADD 没 有 被 使 用 ”的 警告 。 下 面 会 
有 3 行 冲突 信息 ， 此 处 后 文 会 细 说 。 再 后 面 的 “Grammar”* 跟 着 的 是 
mycalc.y 中 定义 的 语法 规则 。 


mycalc.y 中 可 以 使 用 | 〈 竖 线 ， 表 示 或 ) 书写 下 面 这 样 的 语法 规则 : 


line list : line 
| line list line 








[L 
实际 上 与 下 面 这 种 写法 的 语法 规则 是 完全 一 样 的 。 


line list : line 
line list : line list line 





y.output 文 件 中 ， 会 给 每 一 行规 则 附 上 编号 。 


上 面 的 规则 0， 是 yacc 上 自动 附加 的 规则 ，$accept 代表 输入 的 内 
容 ，$end 代表 输入 结束 ， 目 前 还 不 需要 特别 在 意 这 个 问题 。 


Vy.output 文 件 的 后 半 部 分 会 将 解析 器 可 能 遇 到 的 所 有 “状态 ”全 部 列举 出 来 
《代码 清单 2-5) . 


代码 清单 2-5 youtput (后 半 部 分 ) 











state 0 


© $accept: . line list $end 


DOUBLE_LITERAL shift, and go to state 1 


line list go to state 2 
line go to state 3 
expression go to state 4 
term go to state 5 
primary_expression go to state 6 


state 1 

16 primary_expression: DOUBLE LITERAL . 

$default reduce using rule 16 (primary expression) 
state 2 


© $accept: line list . $end 
2 line list: line list . line 


$end shift, and go to state 7 
DOUBLE_LITERAL shift, and go to state 1 


line go to state 8 
expression go to state 4 
term go to state 5 
primary_expression go to state 6 


state 3 

1 line list: line . 

$default reduce using rule 1 (line list) 
state 4 

3 line: expression . CR 

5 expression: expression . MUL term 

6 | expression . SUB term 

SUB shift, and go to state 9 


MUL shift, and go to state 16 
CR shift, and go to state 11 





前 文中 有 一 个 俄罗斯 方块 的 比喻 ， 读 者 通过 那个 比喻 可 能 会 这 样 理解 : 





解析 需 在 一 个 记号 进入 栈 后 ， 从 栈 的 开头 一 个 字符 一 个 字符 扫描 ， 如 宋 
发 现 这 个 记号 满足 已 有 的 茶 个 规则 ， 惑 去 匹配 该 规则 。 但 其 实 这 样 做 会 
让 编译 器 变 得 很 慢 。 


现实 中 ，yacc 在 生成 解析 右 的 阶段 ， 束 已 经 将 解析 器 所 能 遇 到 的 所 有 状 
态 都 列举 出 来 ， 并 做 成 了 一 个 解析 对 照 表 (Parse Table) ， 表 中 记录 

了 “状态 A 下 某 种 记号 进入 后 会 转换 到 状态 B” 这 样 的 映射 关系 ，y.output 
的 后 半 部 分 束 罗 列 了 所 有 可 能 的 映射 关系 。 上 听 说 这 有 点 像 肪 将 中 的 听 
牌 ， 不 过 因为 我 不 玩 贱 将 ， 所 以 也 不 是 很 清楚 。 


有 了 这 些 列 举 出 的 状态 ， 当 记号 进入 后 ， 就 可 以 很 容易 找到 在 何 种 状态 
下 移 进 ， 或 者 根据 何 种 规则 归 约 。 那 么 对 于 之 前 我 们 故意 做 出 的 冲突 ， 
在 我 的 环境 下 ，youtput 开 头 会 输出 如 下 信息 : 


State 5 conflicts: 1 shift/reduce 
State 14 conflicts: 1 shift/reduce 














State 15 conflicts: 1 shift/reduce 





可 以 看 到 state 5 引起 了 冲突 ， 我 们 来 看 一 下 : 


state 5 


4 expression: term . 
8 term: term . MUL primary_expression 
9 | term . DIV primary_expression 


MUL shift, and go to state 12 
DIV shift, and go to state 13 


MUL [reduce using rule 4 (expression)] 
$default reduce using rule 4 (expression) 





上 例 中 ， 第 一 行 的 state 5 即 为 状态 的 编号 ，1 个 空 z 行 后 接 下 来 的 3 行 是 
outpur 抽 站 部 分 中 办 由 的 吾 法 规则 (语法 规则 还 附加 了 编写 )。 语 法 
规则 中 间 有 . ， 代 表 记 号 在 当前 规则 下 能 被 转换 到 哪个 程度 。 i 
和 人 记号 最 多 被 转换 为 term ， 然 后 需要 等 待 下 一 个 记号 进行 
归 纠 。 

再 空 一 行 ， 接 下 来 记录 的 是 当前 状态 下 ， 下 一 个 记号 进入 时 将 如 何 变 
化 。 具 体 来 讲 ， 这 里 当 MUL (* ) 记号 进入 后 会 进行 移 进 并 转换 为 state 
12。 如 果 进 入 的 是 DIV (/ ) ， 则 同样 进行 移 进 并 转移 到 state 13。 
再 经 过 1 个 空 行 后 下 一 行 是 : 


MUL [reduce using rule 4 (expression)] 














意思 是 当 MUL 进入 后 ， 可 以 按照 规则 4 进行 归 约 。 这 也 就 是 移 进 / 归 约 冲 
突 。 

yacc 默 认 移 进 优先 ， 所 以 MUL 进入 后 会 转移 到 状态 12。 在 y.output 中 state 
12 是 这 样 的 : 





state 12 


8 term: term MUL . primary_expression 


DOUBLE_LITERAL shift, and go to state 1 


primary_expression go to state 16 


而 如 果 是 归 约 的 情况 ， 所 要 参照 的 规则 4 古 这 样 的 : 


4 expression: term 


也 就 是 说 ， 当 记号 被 转换 为 term 后 ， 下 一 个 记号 * 进入 以 后 ，yacc 会 报 
告 有 冲突 发 生 ， 冲 突 的 原因 是 当前 term 既 可 以 继续 进行 移 进 ， 也 可 以 归 
约 为 expression 并 结束 。 而 这 正 是 由 于 我 们 将 ADD 修改 为 MUL 后 ，* 的 运 
算 优先 级 被 降低 而 引发 的 混乱 。 


对 y.output 阅 读 方法 的 说 明 就 此 告 一 段落 ， 其 实在 实践 中 想 要 探 明 冲突 
原因 并 解决 冲突 ， 是 比较 有 难度 的 。 


因此 即便 表面 上 看 起 来 都 一 样 的 编程 语法 ， 根 据 语 法 规则 的 书写 方式 不 
同 ，yacc 可 能 报 冲 突 也 可 能 不 报 冲 突 ( 可 以 参考 后 文 讲 到 的 LALR(1) 语 
法 规定 ) 。 比 如 本 节 开 头 所 说 的 C 语 言 中 if else 语法 模糊 的 问题 ， 在 
Java 中 就 从 语法 规则 入 手 回避 了 这 个 冲突 。 而 类 似 这 样 的 小 问题 以 及 相 
应 的 解决 “ 窒 门 ”， 在 自制 编程 语言 中 数不胜数 ， 所 以 从 现实 出 发 ， 模 念 
己 有 的 编程 语言 时 ， 最 好 也 要 多 多 参考 其 语法 规则 。 


2.2.6 ”错误 处 理 

前 面 的 小 节 中 介绍 了 如 何 应 对 语法 规则 中 的 冲突 问题 ， 即 编译 器 制作 阶 
段 的 错误 处 理 。 而 在 自制 编程 语言 时 ， 还 要 考虑 到 使 用 这 门 语言 编程 的 
人 如 果 犯 了 错误 该 怎么 办 。 

在 稍微 旧 一 点 的 编译 器 书籍 中 ， 常 第 能 读 到 下 面 这 样 的 文字 。 


让 用 户 自 己 不 断 的 编译 ， 既 浪费 CPU 资源 也 浪费 时 间 ， 因 此 编译 器 最 
好 只 经 过 一 次 编译 束 能 看 到 大 部 分 错误 信息 。 


但 是 程序 中 的 一 个 错误 ， 其 原因 可 能 是 由 于 其 他 错误 引起 的 〈 可 能 会 
引起 错误 信息 的 雪 衣 现象 ) 。 一 边 不 希望 无 用 的 错误 信息 出 现 ， 一 边 
又 想 尽 可 能 多 地 显示 错误 的 原因 ， 这 其 中 的 平衡 点 是 很 难 掌握 的 。 


























然而 时 至 今日 ，CPU 已 经 谈 不 上 什么 “浪费 资源 *” 了 ， 因 为 在 多 数 情 况 
下 ， 编 译 过 程 往往 一 瞬间 就 能 结束 。 那么 即便 一 次 编译 显示 出 很 多 错误 
信息 ， 用 户 一 般 也 只 会 看 第 一 条 我 就 是 这 样 ) ， 这 样 的话 ,，“ 编 译 带 
最 好 只 经 过 一 次 编译 就 能 看 到 大 部 分 错误 信息 ”也 就 没什么 意义 了 。 

所 以 最 省 事 的 解决 方法 之 一 就 是 ， 一 旦 出 错 ， 立 即使 用 exit() 退出 。 
之 后 章节 中 的 crowbar 和 Diksam 都 是 这 样 处 理 的 。 

但 是 对 于 计算 吉 来 说 ， 是 需要 与 用 户 互动 ， 如 果 输 错 了 一 点 程序 就 强制 
退出 的 话 ， 对 用 户 也 太 不 友好 了 。 


因此 我 们 可 以 利用 yacc 的 功能 实现 一 个 简单 的 错误 恢复 机 制 。 
首先 在 mycalc.y 的 非 终 端 符 line 的 语法 规则 中 ， 追 加 下 面 的 部 分 。 


line 
: expression CR 











printf(">>%1f\n", $1); 


| error CR 


{ 
yyclearin; 
yyerrok; 

} 


E 








这 里 新 出 现 的 是 error 记号 。error 记号 是 匹配 错误 的 特殊 记 
号 。error 可 以 后 接 CR (换行 符 ) ， 这 样 书 写 可 以 匹配 包含 了 错误 的 
所 有 记号 以 及 行 尾 。 


动作 中 的 yyclearin 会 丢弃 预 读 的 记号 ， 而 yyerrok 则 会 通知 yacc 程 序 
己 经 从 错误 状态 恢复 了 。 


既然 是 有 交互 的 工具 ， 一 般 都 会 使 用 换行 来 分 割 每 次 的 会 话 ， 每 一 个 错 
误 信息 后 加 上 换行 符 应 该 会 显得 更 美观 吧 。 


2.3 ”不信 助 工具 编写 计算 瞻 








至 此 我 们 使 用 yacc 和 lex 制 作 了 一 个 计算 器 ， 可 能 会 有 读者 这 样 想 : 
。 我 明明 是 为 了 弄 清楚 编程 语言 的 内 部 机 制 才 要 自制 编程 语言 的 ， 但 
a 
I 了 吗 ? 


。 bison 和 flex 虽 然 都 是 目 由 软件 ， 但 是 在 项 目 中 客 尸 和 上 级 是 不 允许 
使 用 免费 软件 的 ; 


。 yacc/lex 或 bison/flex 的 版 本 升级 可 能 会 使 程序 无 法 工作 ， 这 很 让 人 
寺 磊 8 


上 和 面 每 一 条 理由 都 足够 充分 (上 级 不 允许 使 用 免费 软件 可 能 有 点 不 讲 
理 ， 但 是 光路 上 说 不 讲理 是 没 法 解决 这 个 问题 的 ) 。 


因此 ， 以 下 我 们 将 不 会 借助 yacc/lex 来 制作 计算 器 。 

2.3.1 自制 词法 分 析 器 

首先 是 词法 分 析 右 。 

操作 本 章 的 计算 器 时 ， 会 将 换行 作为 分 割 符 ， 把 输入 分 割 为 一 个 个 算 
式 。 跨 复数 行 的 输入 是 无 法 被 解析 为 一 个 算式 的 ， 因 此 词法 分 析 器 中 应 
当 提 供 以 下 的 函数 : 

/* 将 接 下 来 要 解析 的 行 置 入 词法 分 析 器 中 */ 


void set line(char *line); 

















/* 从 被 置 入 的 行 中 ， 分 割 记号 并 返回 














* 在 行 尾 会 返回 END_OF_LINE_TOKEN 这 种 特殊 的 记号 
4 
void get token(Token *token); 





get_token() 接受 的 入 口 参 数 为 一 个 Token 结 构 体 指针 ， 函 数 中 会 分 割 
出 记号 的 信息 装 入 Token 结 构 体 并 返回 。 上 面 两 个 函数 的 声明 以 及 Token 
结构 体 的 定义 位 于 token.h 文 件 中 。 


代码 清单 2-6 token.h 


#ifndef TOKEN_H_INCLUDED 
#define TOKEN_H_INCLUDED 


typedef enum { 
BAD_TOKEN， 
NUMBER_TOKEN, 
ADD_OPERATOR_TOKEN, 
SUB_OPERATOR_TOKEN, 
MUL_OPERATOR_TOKEN， 
DIV_OPERATOR_TOKEN， 
END_OF_LINE_TOKEN 

} TokenKind ; 


\D ONTOOUUPAUWUDOP 


: #define MAX_TOKEN_SIZE (166) 


: typedef struct { 
TokenKind kind; 
double value; 
char str[MAX_ TOKEN SIZE]; 
} Token; 


: void set line(char *]line); 
: void get token(Token *token); 


: #endif /* TOKEN_H_INCLUDED */ 





词法 分 析 器 的 源 代码 如 代码 清单 2.7 所 示 。 


代码 清单 2-7 lexicalanalyzer.c 





#include “stdio.h> 
#include <stdlib.h> 
: #include <ctype.h> 
#include "token.h" 


static char *st line; 
static int st line pos; 


\D OOUUPAUWUDOP 


typedef enum { 
INITIAL_STATUS ， 
IN_INT_PART_STATUS ， 

12: DOT_STATUS ， 

13: IN_FRAC_PART_STATUS 

14: } LexerStatus; 

15: 


上 记 
PO 


16: void 
17: get token(Token *token) 


18: { 

19: int out pos = @; 

20: LexerStatus status = INITIAL STATUS; 

21: char current char; 

22: 

23: token->kind = BAD_ TOKEN; 

24: while (st line[st line pos] != '\6') { 

25: current char = st line[st line pos ]; 

26: if ((status == IN INT PART STATUS || status == IN_FRAC PART_ST 
27: && lisdigit(current char) && current char != '.'){ 
28: token->kind = NUMBER TOKEN; 

29 : sscanf(token->str, "%lf", &token->value); 
30: return; 

31: } 

32: if (isspace(current char)) { 

33: if (current char == '\n') { 

34: token->kind = END OF_LINE TOKEN; 
35 : Peturn ; 

36 : } 

37: st line pos++; 

38: continue; 

39: } 

40: 

41: if (out pos >= MAX TOKEN SIZE-1) { 

42: fprintf(stderr, "token too long.\n"); 
43: exit(1); 

44: } 

45: token->str[out pos] = st line[st line pos]; 
46: st line pos++; 

47: out pos++; 

48: token->str[out pos] = '\'; 

49 : 

56 : if (current char == '+') { 

SL token->kind = ADD OPERATOR TOKEN; 

52: return; 

53: } else if (current char == '-'){t{ 

54: token->kind = SUB_ OPERATOR TOKEN; 

5D: return; 

56: } else if (current char == '*') { 

57: token->kind = MUL OPERATOR TOKEN; 

58: return; 

59: } else if (current char == '/'){t{ 

60 : token->kind = DIV_OPERATOR_TOKEN 

61: return; 

62: } else if (isdigit(current char)) { 


63: if (status == INITIAL STATUS) { 


64: status = IN_INT_ PART_STATUS; 





65: } else if (status == DOT_ STATUS) { 
66: status = IN_ FRAC PART_STATUS; 
67: 

68: } else if (current char == '.'){t{ 

69: if (status == IN INT PART STATUS) { 
70: status = DOT_STATUS; 

71: } else { 

72: fprintf(stderr, "syntax error.\n"); 
73: exit(1); 

74: } 

75: } else { 

76: fprintf(stderr, "bad character(%c)\n", current char); 
77: exit(1); 

78: } 

79: } 

80: } 

81: 

82: void 

83: set line(char *line) 

84: { 

85: st line = line; 

86: st line pos = @; 

87: } 

88: 

89: /* 下 面 是 测试 驱动 代码 */ 

96: void 

91: parse line(char *buf) 

92: { 

93: Token token; 

94: 

95: set line(buf); 

96 : 

97 : for (;;) { 

98: get_ token(&token); 

99: if (token.kind == END OF LINE TOKEN) { 
100 : break ; 

161: } else { 

1062: printf("kind..%d, str..%s\n", token.kind, token.str); 
163: } 

164: } 

165: } 

166 : 

167: int 

168: main(int argc, char **argv) 

169: { 

116 : char buf[1624] ; 


111: 


112 : while (fgets(buf，1624，stdin) != NULL) { 


113 : parse line(buf); 
114: } 

115: 

116: return 0; 

117: } 





这 个 词法 分 析 器 的 运行 机 制 为 ， 每 传 入 一 行 字 符 串 ， 束 会 调用 一 





次 get_token() 并 返回 分 割 好 的 记号 。 由 于 词法 分 析 器 需要 记忆 
set_line() 传 入 的 行 ， 以 及 该 行 已 经 解析 到 的 位 置 ， 所 以 设置 了 静态 
变量 st line 与 st_ line pos 〈 第 6 一 7 行 ) ” 








* 按 本 书 所 采用 的 命名 规范 ， 文 件 内 的 static 变量 需要 附带 前 缀 st_。 请 参考 3.2.1 节 。 
set_line() 函数 ， 只 是 单纯 设置 了 st_line 与 st_line_pos 的 值 。 


get_ token() 则 负责 将 记号 实际 分 割 出 来 ， 即 词法 分 析 器 的 核心 部 
分 。 





第 24 行 开始 的 while 语 句 ， 会 逐一 按照 字符 扫描 st_line 。 


记号 中 的 + 、- 、* 、/ 四 则 运算 符 只 占 一 个 字符 长 上 度 ， 因 此 一 旦 扫描 到 
了 了 ， 并 即 返 回 就 可 以 了 。 


数值 部 分 要 和 微 复杂 一 一 些 ， 因 为 数值 由 多 个 字符 构成 。 鉴 于 我 们 采用 的 
是 while 语 再 句 巡 字 符 扫描 这 种 方法 ， 当前 扫描 到 的 字符 很 有 可 能 只 是 一 
个 数值 的 一 部 分 ， 所 以 必须 想 个 办 法 将 符合 数值 特征 的 值 暂 存 起 来 。 为 
了 暂 存 数值 ， 我 们 采用 一 个 枚 举 类 型 Lexerstatus* 的 全 局 变量 status 
(第 20 行 )。 
































* 数 值 可 以 分 为 整数 部 分 、 小 数 点 和 小 数 部 分 。 使 用 lex 时 ， 用 一 个 正则 表达 式 描述 其 特征 ， 之 
后 全 部 交 给 lex 处 理 。 而 在 这 里 我 们 就 只 能 自力 更 生 了 。 



























































首先 ，status 的 初始 状态 是 INITIAL_STATUS 。 当 遇 到 0 一 9 的 数字 
时 ， 这 些 数字 会 被 放 入 整数 部 分 (此 时 状态 为 IN_INT_PART_STATUS ) 
中 (第 64 行 )。 一旦 遇 到 小 数 点 . ，status 会 

由 IN_INT_PART_STATUS 切换 为 DOT_STATUS (第 70 

行 ) ，DOT_STATUS 再 遇 到 数字 会 切换 到 小 数 状态 
CIN_FRAC_PART_STATUS ， 第 66 行 ) 。 在 IN_INT_PART_STATUS 


或 IN_FRAC_PART_STATUS 的 状态 下 ， 如 果 再 无 数字 或 小 数 点 出 现 ， 则 
结束 ， 接 受 数值 并 return 。 


按 上 面 的 处 理 ， 词 法 分 析 器 会 完全 排除 .5 或 2. .3 这 样 的 输入 。 而 从 第 
32 行 开始 的 处 理 ， 除 换行 以 外 的 空白 符号 全 部 会 被 跳 过 。 


由 于 是 用 于 计算 需 的 词法 分 析 器 ， 因 此 除 四 则 运算 符 与 数值 外 ， 没 有 其 
他 要 处 理 的 对 象 了 ， 但 如 果 考 虑 到 将 其 扩展 并 可 以 文 持 编程 语言 的 话 ， 
最 好 提前 想到 以 下 几 个 要 后 。 


1. 数值 与 标识 符 ( 如 变量 名 等 ) 可 以 按照 上 例 的 方法 通过 管理 一 个 
当前 状态 将 其 解析 出 来 ， 比 如 自 增 运算 符 就 可 以 设置 一 个 类 
似 IN_INCREMENT_OPERATOR 的 状态 ， 但 这 样 一 来 程序 会 变 得 元 
长 。 因 此 对 于 运算 符 来 说 ， 可 能 为 其 准备 一 个 字符 串 数组 会 更 
好 。 比 如 做 一 个 下 面 这 样 的 数组 : 


static char *st_operator_str[] = {"++","--", "+ "-", (以 下 省 略 ) }; 


当前 读 入 的 记号 可 以 与 这 个 数组 中 的 元 素 做 前 向 匹配 ， 从 而 判别 
记号 的 种 类 。 指 针 部 分 同样 需要 比特 征 对 象 再 多 读 入 一 个 字符 用 
以 判别 (比如 输入 i+2 ， 就 需要 将 2 也 读 入 看 看 有 没有 是 i++ 的 
可 能 性 ) 。 做 判别 时 ， 像 上 例 这 样 将 长 的 运算 符 放置 在 数组 前 面 
会 比较 省 事 。 关 于 额外 读 入 的 一 个 字符 具体 应 该 如 何 处 理 ， 稍 后 


会 介绍 。 























为 外 ， 像 if 、while 这 些 保留 字 ， 比 较 简 单 的 做 法 是 先 将 其 判 
别 为 标识 符 ， 之 后 再 去 对 照 表 中 查找 有 没有 相应 的 保留 字 。 


2. 本 次 的 计算 器 是 以 行为 单位 的 ，st_line 会 保存 一 行 中 的 所 有 信 
四 ， 但 在 当下 的 编程 语言 中 ， 换 行 一 般 和 空白 字符 是 等 效 的 ， 
此 不 应 该 以 行为 单位 处 理 ， 而 是 从 文件 中 逐 字 符 〈( 使 用 getc() 
等 函数 ) 读 入 解析 会 更 好 。 
那么 ， 上 例 中 用 while 语句 逐 字符 读 取 的 地 方 就 需要 替换 为 
用 getc() 等 函数 来 读 取 ， 比 如 输入 123.4+2 时 ， 判 别 数 值 是 否 
结束 的 时 机 是 读 入 + 时 。 


上 例 的 词法 分 析 器 是 通过 st_line_pos 的 自 增 (第 46 











行 st_line_pos++ ) 来 实现 的 。 如 果 直 接 从 文件 逐 字 符 读 入 ，C 
语言 中 就 需要 使 用 ungetc() 等 从 读 入 的 字符 回 退 ， 从 而 产生 1 个 
字符 的 备份 ， 达 到 预先 读 入 下 一 字符 的 效果 。 
补充 知识 ”保留 字 〈( 关 键 字 ) 
在 C 语 言 中 ，if 与 while 都 是 保留 字 ， 保 留 字 无 法 再 作为 变量 名 使 用 
【C 规 范 中 一 般 不 称 “ 保 留 字 ”(reserved word) ， 而 称 为 “关键 
字 ”(keyword) ， 但 是 关键 字 的 指 代 范围 太 广 ， 所 以 还 是 称 保 留 字 更 加 
准确 】。 
C 语 言 中 的 保留 字 是 由 词法 分 析 占 以 特殊 的 标识 符 方式 处 理 的 。 保 留 字 
的 区 分 以 标识 符 为 单位 ， 比 如 if 不 能 作为 变量 名 但 ifa 就 可 以 。 


对 于 习惯 了 C 语 言 的 人 来 说 ， 这 都 是 理所当然 的 事情 ， 但 站 在 其 他 语言 
的 角度 看 却 未 必 如 此 。 


比如 在 我 小 时 候 折腾 过 一 门 叫 BASIC 的 编程 语言 ” ， 可 以 这 样 写 : 


IFA=160THEN. . . 


* 这 里 的 例子 仅 限于 BASIC 的 旧版 本 ， 在 N88-BASIC 中 IFA 的 写法 也 是 不 允许 的 。 


会 解析 为 : 


IF A = 16 THEN ... 


问 杂 志 投 稿 的 程序 中 ， 注 释 〈 英 语 为 ramark) 都 写成 了 下 面 这 样 : 


REMARK 这 里 是 注释 


BASIC 中 的 注释 只 需要 写 REM 语句 ，REM 之 后 都 会 被 作为 注释 处 理 ， 
此 即便 写成 REMARK 也 是 可 以 的 。 


BASIC 是 从 FORTRAN 的 基础 上 发 展 起 来 的 ， 以 前 FORTRAN 中 空白 字 














符 没 有 任何 意义 。GOTO 可 以 写成 GO TO ， 也 可 以 写成 G 0TO ， 而 在 写 
循环 的 时 候 ， 下 例 等 于 写 了 一 个 1 到 5 的 循环 。 


DO 16 I=1,5 
处 理 




















16 CONTINUE 








如 果 一 不 小 心 将 逗号 输入 成 名 号， 写成 下 面 这 样 : 


DO 16 I=1.5 


由 于 FORTRAN 中 空白 没有 意义 ， 而 且 上 例 中 也 无 需 声明 变量 (D 开 始 
的 变量 默认 解析 成 实数 型 变量 ) ， 上 所 以 最 后 会 变 成 D016I=1.5 这 样 的 赋 
值 语句 。 有 传闻 ”说 就 是 这 样 一 个 BUG 最 终 导致 NASA 的 火箭 失控 爆 

炸 ， 当 然 这 多 半 是 谣传 了 。 

*# 文 章 的 标题 是 “Fortran story - the real scoop”， 是 当时 在 NASA 的 Fred Webb 疝 新 闻 组 
alt.folklore.compnuters 的 一 篇 投稿 ， 有 兴趣 的 朋友 可 以 去 搜索 一 下 。 


另外 在 C# 中 还 有 上 下 文 关键 字 (context keyword) ， 是 指 一 些 在 特殊 
的 区 域内 才 对 编译 器 有 特殊 意义 的 关键 字 〈 比 如 定义 属性 时 使 用 get 

等 ) 。 内 容 关 键 字 并 不 等 同 于 保留 字 ， 在 普通 的 变量 名 中 可 以 使 用 。 保 
留 字 与 关键 字 严 格 讲 有 不 同 的 意义 ， 但 本 书 中 没有 特别 区 分 。 


补充 知识 “避免 重复 包含 
在 代码 清单 2-6 中 ， 开 头 和 结尾 处 有 这 样 的 语句 : 


#ifndef TOKEN_H_INCLUDED 
#define TOKEN_H_INCLUDED 
《中 间 省 略 ) 
































#endif /* TOKEN_H_INCLUDED */ 





防止 token.h 多 次 用 #include 包含 引起 多 重 定义 错误 而 采用 的 
Ls 


头 文 件 经 稼 会 用 到 其 他 头 文 件 中 定义 的 类 型 或 安 。 比 如 在 ah 中 定义 的 类 
型 在 b.h 中 使 用 的 话 ， 在 b.h 的 开头 处 书写 #include "a.h" 就 可 以 了 。 
如 果 不 这 样 做 ， 程 序 用 #include 包含 b.h 时 ， 必 须 同 时 书写 #include 
a.h 与 #include b.h ， 还 会 弄 得 代码 到 处 都 是 长 串 #include ， 之 后 
如 果 依 赖 关 系 发 生 改变 的 话 修改 起 来 非常 麻烦 。 


但 仅仅 在 头 文件 的 起 始 处 用 #include 包含 sh， 如 果 多 个 头 文件 都 这 样 
书写 ， 会 报 出 类 型 或 宏 的 重复 定义 错误 。 因 此 采用 上 面 的 小 技巧 ， 一 旦 
token.h 用 #include 包含 后 会 定义 TOKEN_H_INCLUDED ， 根 据 开 头 的 

#ifndef 语句 ， 该 头 文 件 将 被 忽略 ， 也 束 避 免 了 产生 多 重 定义 的 错误 。 


下面 I 的 经 验 之 谈 ， 本 书 中 涉及 的 代码 都 默认 休 循 


1. 所 有 的 头 文件 都 必须 用 #include 包含 自己 所 依赖 的 其 他 所 有 头 文 
件 ， 最 终 让 代码 中 只 需 一 次 #include; 


2. 所 有 的 头 文 件 都 必须 加 入 上 文 的 技巧 ， 防 止 出 现 多 重 定 义 错误 。 
2.3.2 ”自制 语法 分 析 器 

接 下 来 终于 要 开始 做 语法 分 析 器 了 。 

在 我 看 来 ， 只 要 是 有 一 定编 程 经 验 的 程序 员 ， 即 使 没有 自制 编程 语言 的 
背景 ， 都 可 以 大 致 想 明 白 词法 分 析 器 的 运行 机 制 。 但 换 成 语法 分 析 器 ， 
可 能 很 多 人 就 有 点 摸 不 着 头脑 了 。 有 些 人 可 能 会 想 ， 总 之 先 只 考虑 计算 
器 程序 ， 将 运算 符 优 先 级 最 低 的 + 与 - 分割 出 来 ， 然 后 再 处 理 * 和 / ...... 
这 样 的 思路 基本 是 正确 的 。 但 是 按 这 样 的 思路 实际 操作 时 会 发 现 ， 用 来 
保存 分 割 字 符 串 的 空间 可 能 还 有 其 他 用 途 ， 而 加 入 括号 的 处 理 也 很 难 。 


对 于 上 面 的 问题 ， 与 其 自己 想 破 脑袋 ， 不 如 借鉴 一 下 前 人 的 智 巧 。 因 此 
我 们 将 使 用 一 种 叫 递 归 下 降 分 析 的 方法 来 编写 语法 分 析 器 。 


yacc 版 的 计算 器 曾 使 用 下 面 的 语法 规则 : 









































expression /* 表达 式 的 规则 */ 
: term /* 表达 式 */ 
| expression ADD term /* 或 表达 式 + 表达 式 */ 








| expression SUB term /* 或 表达 式 - 表达 式 */ 
/ 


term /* 表达 式 的 规则 */ 
: primary_expression /* 一 元 表达 式 */ 
| term MUL primary_expression /* 或 表达 式 * 表达 式 */ 
| term DIV primary_expression /* 或 表达 式 / 表达 式 */ 








primary_expression /* 一 元 表达 式 的 规则 */ 

















: DOUBLE_LITERAL /* 实数 的 字面 常量 */ 


了 














这 些 语法 规则 可 以 用 图 2-5 这 样 的 语法 图 〈syntax graph 或 syntax 
diagram ) 来 表示 。 


expression 





term 


primary_ expression 





primary expression 


图 2-5 计算 器 的 语法 图 

语法 图 的 表示 方法 应 该 一 看 就 能 明白 ， 比 如 项 目 〈term) 的 语法 图 代表 
最 初 进入 一 元 表达 式 (primary_expression ) ， 一 元 表达 式 可 以 直接 
结束 ， 也 可 以 继续 进行 * 或 / 运算 ， 然 后 又 有 一 个 一 元 表达 式 进 入 ， 重 
复 这 一 流程 。 作 为 语法 构成 规则 的 说 明 ， 语 法 图 要 比 BNF 更 容易 理解 
吧 。 


本 书 的 语法 图 例 中 ， 非 终端 符 用 长 方形 表示 ， 终 端 符 ( 记 写 〉 用 椭圆 形 
表示 。 


正如 语法 图 所 示 ， 递 归 下 降 分 析 法 读 入 记号 ， 然 后 执行 语法 分 析 。 


比如 解析 一 个 项 目 〈term) 的 函数 parse_term() ， 如 代码 清单 2-8 所 
示 ， 按 照 语法 图 所 示 流 程 工 作 。 


_ 代码 清单 2-8 parser.c (节选 》 





/* primary expression 的 解析 函数 */ 
v1 = parse_ primary_expression(); 
for (;;) { 
my_get_ token(&token); 
/* 循环 扫描 “*”、“/” 以 外 的 字符 */ 
if (token.kind != MUL OPERATOR TOKEN 
&& token.kind != DIV OPERATOR TOKEN) { 
/* 将 记号 Token 退 回 */ 
unget token(&token); 
break; 








} 


/* primary expression 的 解析 函数 */ 

v2 = parse_ primary_expression(); 

if (token.kind == MUL OPERATOR TOKEN) { 
V1 *= V2 

} else if (token.kind == DIV OPERATOR TOKEN) { 
v1 /= v2; 





} 
} 


return vi1; 





如 同 语法 图 中 最 开始 的 primary_expression 进入 一 样 ， 第 51 行 的 
parse_primary_expression() 会 被 调用 。 递 归 下 降 分 析 法 中 ， 一 个 
非 终端 符 总 对 应 一 个 处 理 函 数 ， 语 法 岁 里 出 现 非 终端 符 就 代表 这 个 函数 
被 调用 。 因 此 在 第 52 行 下 面 的 for 语句 会 构成 一 个 无 限 循环 ， 如 果 * 
(MUL_OPERATOR) 与 / (DIV_OPERATOR) 进入 ， 循 环 会 持续 进 
行 〈 其 他 字符 进入 则 通过 第 57 行 的 break 跳出 ) 。 而 第 59 行 第 二 次 调 
用 parse_primary_expression() ， 与 语法 图 中 * 和 / 右边 的 primary 
expression 相对 应 。 


比如 过 到 语句 1 * 2 + 3 ， 第 51 行 的 parse_primary_expression() 
将 1 读 入 ， 第 53 行 ny_get_token() 将 * 读 入 ， 接 下 来 第 59 行 的 
parse_primary_expression() 将 2 读 入 。 之 后 的 运算 符 根据 种 类 不 
同 分 别 执行 乘法 (第 61 行 ) 或 除法 (第 63 行 )。 


至 此 已 经 计算 完毕 1 * 2 ， 然 后 第 53 行 的 my_get_token() 读 入 的 记号 
是 + 。+ 之 后 再 没有 term 进入 ， 用 break 从 锥 环 跳出 。 但 由 于 此 时 已 经 
将 + 读 进 来 了 ， 因 此 还 需要 用 第 56 行 的 unget_token() 将 这 个 记号 退 
回 。parser.c 没 有 直接 使 用 lexicalanalyzer.c 中 写 好 的 get_token() ， 而 使 
用 了 my_get_token() ，my_get token() 会 对 1 个 记号 开辟 环形 缓冲 








区 (Ring Buffer) (代码 清单 2-9 第 7 行 的 静态 变量 
st_look_ahead_token 是 全 部 绥 冲 ) ， 可 以 借用 环形 缓冲 区 将 最 后 读 
进来 的 1 个 记号 用 unget_token() 退回 。 这 里 被 退回 的 + ， 会 重新 通过 
parse_expression() 第 78 行 的 my_get_token() 再 次 读 入 。 


完整 代码 如 代码 清单 2-9 所 示 。 


根据 语法 图 的 流程 可 以 看 到 ， 当 命中 非 终 端 符 时 ， 会 通过 递归 的 方式 调 
用 其 下 级 函数 ， 因 此 这 种 解析 器 称 为 递归 下 降解 析 器 。 

这 个 程序 作为 一 个 带 有 运算 优先 级 功能 的 计算 器 来 说 ， 代 人 码 是 不 是 出 平 
意料 地 简单 呢 。 那 么 请 尝试 对 各 种 不 同 的 算式 进行 真 机 模拟 ， 用 debug 
追踪 或 者 printf() 实际 调试 一 下 吧 。 


代码 清单 2-9 parser.c 











: #include <stdio.h> 
: #include <stdlib.h> 
#include "token.h" 


#define LINE BUF_ SIZE (1624) 


: static Token st look ahead token; 
: static int st look ahead token exists; 


CONOUWUWPBUWUDOPp 


16: static void 
11: my_get token(Token *token) 


12: 

13: if (st look ahead token exists) { 
14: *token = st look ahead token; 
15: st_ look ahead token exists = ©; 
16: } else { 

17: get_ token(token); 

18: 

19: } 

20: 


21: static void 
22: unget token(Token *token) 


23: { 

24: st _ look ahead token = *token; 
25: st_ look ahead token exists = 1; 
26: } 

2 


28: double parse expression(void); 


36: static double 
31: parse primary_expression() 


32: { 

33: Token token; 

34: 

35: my_get_ token(&token); 

36: if (token.kind == NUMBER TOKEN) { 
7 return token.value; 

38: } 

39: fprintf(stderr, "syntax error.\n"); 
40: exit(1); 

41: return 8.60; /* make compiler happy */ 
42: } 

43: 


44: static double 
45: parse term() 


46: { 

47: double v1; 

48: double v2; 

49: Token token; 

50: 

51: v1 = parse primary_expression(); 

52: for (;;) { 

53: my_get_ token(&token); 

54: if (token.kind != MUL OPERATOR TOKEN 
55: && token.kind != DIV OPERATOR TOKEN) { 
56: unget token(&token); 

Sy: break; 

58: } 

59: v2 = parse_ primary_expression(); 

60: if (token.kind == MUL OPERATOR TOKEN) { 
61: V1 *= V2; 

62: } else if (token.kind == DIV _ OPERATOR TOKEN) { 
63: v1 /= v2; 

64: } 

65: } 

66: return v1; 

67: } 

68: 

69: double 

76: parse expression() 

71: { 

72: double v1; 

73: double v2; 

74: Token token; 

75: 


76: v1 = parse term(); 


93 : 


166 : 
161 : 
102: 
103: 
164 : 
165 : 
166 : 
167 : 
168 : 
169 : 
116 : 
111: 
112: 
113: 
114: 
115: 
116: 
117: 
118: 
119: 
120: 


for (;;) { 
my_get_ token(&token); 
if (token.kind != ADD OPERATOR_ TOKEN 
&& token.kind != SUB OPERATOR TOKEN) { 
unget token(&token); 
break; 
} 
v2 = parse term(); 
if (token.kind == ADD OPERATOR TOKEN) { 
V1 += V2; 
} else if (token.kind == SUB OPERATOR TOKEN) { 
V1 -= V2; 
} else { 
unget token(&token); 
} 
} 


return v1; 


double 
parse_ line(void) 
{ 


double value; 


st_ look ahead token exists = 0; 
value = parse expression(); 


return value; 


} 


int 

main(int argc, char **argv) 

{ 
char line[LINE BUF_ SIZE]; 
double value; 


while (fgets(line, LINE BUF_ SIZE, stdin) != NULL) { 
set line(line); 
value = parse line(); 
printf(">>%f\n", value); 

} 


return 0; 


} 








补充 知识 ” 预 读 记 号 的 处 理 


Te 会 预先 读 入 一 个 记号 ， 一旦 发 现 预 读 的 
号 是 不 需要 的 ， 则 通过 unget_token() 将 记号 “ 退 站 


换 一 种 思路 ， 其 实 也 可 以 考虑 "始终 保持 预 读 一 个 记号 号 ”的 方法 。 按 照 这 
种 思路 ， 代 码 清单 2-9 可 以 改写 成 代码 清单 2-10 这 样 : 


代码 清单 2-10 parser.c〈 始 终 保持 预 读 版 ) 
/* token 变 量 已 经 放 入 了 下 一 个 记 导 */ 


parse_primary_expression(); 
for (;;) { 
/* 这 里 无 需 再 读 入 记号 */ 
if (token.kind != MUL OPERATOR TOKEN 
&& token.kind != DIV OPERATOR TOKEN) { 
/* 不 需要 退回 处 理 */ 


break ; 


























} 


/* token.kind 之 后 还 会 使 用 ， 所 以 将 其 备份 
* 而 parse_primary_expression() 也 就 可 以 读 入 新 的 记号 





*/ 

kind = token.kind; 

my_get token(&token); 

v2 = parse primary_expression(); 

if (kind == MUL OPERATOR TOKEN) { 
V1 *= v2; 

} else if (kind == DIV OPERATOR TOKEN) { 
v1 /= v2; 

} 








比较 这 两 种 实现 方式 ， 会 发 现 两 者 的 实质 基本 上 是 一 样 的。 很 多 编译 器 
入 门 书籍 中 列举 的 实例 代码 ， 和 本 书 中 的 例子 相差 无 几 。 

不 过 这 里 还 是 会 有 个 人 偶 好 ， 惑 我 而 言 ， 更 喜欢 “ 边 读 入 边 退 回 ? 的 方 
法 。 在 “始终 保持 预 读 ?” 的 方法 中 ， 变 量 token 是 一 个 全 局 变量 ， 代 码 中 相 
隔 很 远 的 地 方 也 会 操作 其 变量 值 ， 妃 踩 数据 变化 会 比较 麻烦 。 


2.4 ”少许 理论 知识 





LL(1) 与 LALR(1) 


2.3.2 节 中 手写 的 解析 融会 对 记号 进行 预 读 ， 并 按照 语法 几 的 流程 读 入 所 
有 记 写 。 这 种 类 型 的 解析 器 叫 作 LL(D 解 析 右 。LL(1) 解 析 器 所 能 解析 的 
语法 ， 叫 作 LL(GD 语 法 。 


采用 LL(1) 语 法 ， 当 然 能 制作 出 对 应 的 编程 语言 来 。 比 如 Pascal 的 语法 就 
是 LL(1)。 


但 是 看 了 代码 清单 2-9 就 能 明白 ，LL(1) 解 析 器 在 语法 上 需要 非 终结 符 与 
解析 器 内 部 的 函数 一 一 对 应 。 也 就 是 说 ， 只 看 第 一 个 进入 的 记号 ， 还 无 
法 判断 需 不 需要 继续 往 下 读 取 ， 也 不 能 知道 当前 非 终端 符 究竟 是 什么 。 


比如 在 Pascal 中 ，goto 语句 使 用 的 标签 只 能 是 数字 ， 这 样 限制 的 原因 

是 ， 如 果 像 C 语 言 一 样 允 许 英文 字母 作为 标识 符 的 话 ， 读 入 第 一 个 记号 

时 ， 就 没有 办 法 区 分 这 个 记号 究竟 是 赋值 语句 的 一 部 分 ， 还 是 标签 语句 

的 一 部 分 。 因 为 无 论 赋值 语句 还 是 标签 语句 ， 开 始 的 标识 符 是 一 样 的 。 

由 此 可 知 ，LLOD 请 法 所 做 出 的 解 术 器 部 比较 简单 ， 语 法 能 表达 的 郊 轩 
交 狭 鹤 。 


那么 ， 在 把 计算 器 的 BNF 改 写 为 语法 图 的 过 程 中 ， 一 些 敏 锐 的 读者 可 能 
己 经 有 了 这 样 的 疑问 : 


不 管 是 用 BNF 还 是 语法 图 ， 都 应 该 只 是 表面 上 有 区 别 ， 语 法 实现 部 分 
。 但 你 写 的 代码 怎么 连 算法 都 不 一 样 ? 我 有 种 上 当 了 
和 感觉。 


实际 上 确 有 此 事 ， 在 把 BNF 置 换 为 图 2-5 所 示 的 语法 图 时 ， 我 运用 了 一 
个 小 手法 。 在 BNF 中 语法 规则 是 这 样 的 : 





expression /* 表达 式 的 规则 */ 
| expression ADD term /* 或 表达 式 + 项 目 */ 








而 在 实现 递归 下 降 分 析 时 ， 如 果 仍 然 按 这 个 规则 
在 parse_expression() 刚 开始 就 调用 parse_expression() ， 会 造 


成 死 循环 ， 一 个 记号 也 读 不 了 。 


BNF 这 样 的 语法 称 为 左 递归 ， 原 封 照搬 左 递 归 的 语法 规则 ， 是 无 法 实 
现 递归 下 降 分 析 的 。 


所 以 yacc 生 成 的 解析 器 称 为 LALR(1) 解 析 器 ， 这 种 解析 器 能 解析 的 语法 
称 为 LALR(1) 语 法 。LALR(1) 解 析 器 是 LR 解析 器 的 一 种 。 


LL(1) 的 第 一 个 L， 代 表 记 号 从 程序 源 代码 的 最 左边 开始 读 入 。 第 二 个 L 
则 代表 最 左 推导 (Leftmost derivation) ， 即 读 入 的 记号 从 左 端 开 始 置 
换 为 分 析 树 。 而 与 此 相对 的 LR 解 析 器 ， 从 左 端 开 始 读 入 记号 与 LLG) 解 
析 器 一 致 ， 但 是 发 生 归 约 时 〈 参 看 2.2.3 节 图 2-3) ， 记 号 从 右边 开始 归 
约 ， 这 称 为 最 右 推导 (Rightmost derivation) ， 即 LR 解 析 器 中 R 字 母 的 
意思 


心 \ /Co 


递归 下 降 分 析 会 按 目 上 而 下 的 顺序 生成 分 析 树 ， 所 以 称 作 递归 < 下降” 解 
析 串 或 递归 “加 下 ?解析 右 。 而 LR 解 析 器 则 是 按照 目下 而 上 的 顺序 ， 所 以 
也 称 为 “ 目 底 向 上 ” 解 术 器。 


此 外 ，LL(1)、LALR(1) 等 词汇 中 的 (1)， 代 表 的 是 解析 时 所 需 前 瞻 符 号 
(lookahead symbol) ， 即 记号 的 数量 。 





LALR(D) 开 头 的 LA 两 个 字母 ， 是 Look Ahead 的 缩写 ， 可 以 通过 预 读 一 个 
记号 判明 语法 规则 中 所 包含 的 状态 并 生成 语法 分 析 表 。LALR 也 是 由 此 
得 名 的 。 


本 章 中 实际 制作 的 计算 器 是 采用 LL(1) 语 法 作为 解析 器 的 ， 因 为 比较 简 
单 ， 所 以 适合 手写 。 如 果 是 LALR(1) 等 LR 语法 的 话 ， 则 更 适合 用 yacc 等 
工具 自动 生成 (这 话 可 能 已 经 说 了 太 多 人 遍 了 ) 。 不 过 ， 最 近 像 
ANTLR、JavaCC 等 一 些 采 用 LL(k)， 即 预 读 任 意 个 记号 的 LL 解析 器 也 开 
始 普及 起 来 。 


补充 知识 “PascalyC 中 的 语法 处 理 诀 窗 


前 面 提 到 Pascal 采 用 的 是 LL(1) 语 法 ， 但 是 在 Pascal 中 ， 同 时 存在 赋值 语 
句 和 过 程 调 用 (C 语 言 中 是 函数 调用 ) 。 按 照 之 前 的 介绍 ， 这 两 者 都 由 
同一 类 标识 符 开始 的 ，LL(1) 解 析 器 似乎 无 法 区 分 。 


在 这 个 问题 上 ，Pascal 并 没有 从 一 开始 就 强行 将 其 区 分 ， 而 是 逆转 思 
路 ， 引 入 了 一 个 同时 代表 “ 贱 值 语句 或 过 程 调用 ”的 非 终端 符 ， 然 后 在 下 
一 个 记号 读 入 后 再 将 其 分 开 。 这 样 不 用 更 改 Pascal 语 法 设计 ， 仅 仅 变 化 
一 下 语法 规则 就 解决 了 问题 。 








在 C 语 言 中 ， 如 果 是 通过 typedef 命名 的 一 些 类 型 ， 其 标识 符 
yacc (LALR(1) 解 析 器 〉 是 无 法 解析 的 。 比 如 C 语 言 中 可 以 简单 地 声明 
为 : 


Hoge *hoge p = NULL; 


i 和 % 是 习 法 运算 符 还 是 指针 符号 ， 单 看 Hoge 这 个 标识 符 很 难 
论 
论 。 











对 此 ，C 语 言 用 了 一 个 小 诀 罕 ， 即 在 标识 符 作为 类 型 名 被 声明 的 时 候 ， 
此 后 凡 遇 到 这 个 标识 符 ， 不 要 将 其 作 
为 标识 符 ， 而 作为 类 型 名 返回 。 


通过 很 多 类 似 的 诀 窗 ， 终 于 可 以 让 LL(1)YLALR(1) 解 析 器 解析 Pascal/C 语 
言 了 。C 语 言 图 书 K&R” 的 附录 中 ， 就 记录 了 BNF 要 经 过 一 些 修正 才 可 
以 输入 yacc 的 内 容 。 





过 
* 即 被 称 为 “C 语 言 圣 经 的 ?The Programming Language C 一 书 ， 作 者 名 缩写 为 K&R 














中 文 版 为 《C 程 序 设计 语言 (第 2 版 -新 版 )》 机 械 工业 出 版 社 于 2004 年 出 版 
二 » ANY A 

2.5 习题: 扩展 计算 器 

2.5.1 让 计算 坪 文 持 括号 


如 果 要 说 普通 计算 器 有 什么 不 方便 的 地 方 ， 不 能 直接 输入 括号 进行 计算 
就 是 其 中 之 一 。 因 此 为 了 让 mycalc 支持 括号 ， 我 做 了 一 些 修改 。 


因为 使 用 的 是 yacclex， 所 以 首先 在 lex 中 增加 ( 和 ) 两 个 记号 。 





[BS 














亚 

全 
项 
a 


return ADD; 
return SUB ; 
return MUL ; 
return DIV ; 
return LP; < 新 增 
return RP; < 新 增 
return CR; 








( 
wn 
on" 
"(" 
")" 
"\ 


n" 


LP 、RP 分 别 是 left paren、right paren 的 缩写 。 


然后 将 primary_expression 的 语法 规则 替换 为 下 面 这 样 : 


primary_expression 
: DOUBLE LITERAL 
| LP expression RP 


{ 





一 看 就 能 明白 ， 意 思 是 被 ( ) 包 里 的 primary-expression 还 是 一 
个 expression 。 


不 过 仅 这 两 处 修改 还 不 能 让 mycalc 文 持 括号 。 


使 用 递归 下 降 分 析 法 制作 语法 分 析 器 的 话 ，primary_ expression 的 语 
法 图 需 更 改 为 图 2-6 那 样 。 


primary_ expression 


DOUBLE LITERAL 






图 2-6 在 语法 图 中 引入 括号 


这 表示 用 括号 将 expression 包 庄 的 部 分 ， 整 体 将 会 作 
为 primary_expression 来 处 理 。 


那么 按 这 个 思路 重新 编写 parser.c 如 下 所 示 。 





static double 
parse_primary_expression() 


{ 


UWOUDPp 


Token token; 


5 double value; 

6: 

7: my_get token(&token); 

8: if (token.kind == NUMBER TOKEN) { 

9: return token.value; 
16 : } else if (token.kind == LEFT_PAREN_TOKEN) { 
11: value = parse expression(); 
12» my_get token(&token); 
13: if (token.kind != RIGHT PAREN TOKEN) { 
14: fprintf(stderr, "missing ')' error.\n"); 
15: exit(1); 
16: 
17: return value; 
18 : } else { 
19: unget token(&token); 
20: return 6.6; /* make compiler happy */ 
21: } 
22: } 





将 语法 图 直接 转换 为 代码 应 该 不 是 很 难 ， 只 要 按 图 中 的 思路 去 做 即 可 。 
如 果 进 入 的 不 是 DOUBLE_LITERAL 而 是 ( ， 则 把 括号 中 的 部 分 作为 一 
个 expression 去 解析 就 可 以 了 。 此 外 ， 如 果 expression 解析 完毕 后 
没有 找到 标记 结束 的 右 括 号 ) ， 则 需要 报错 。 





2.5.2 ”让 计算 絮 文 持 负 数 

其 实 目 前 做 出 来 的 计算 器 ， 还 无 法 文 持 负数 。 因 为 在 定义 数值 时 用 的 正 
则 表达 式 是 [1-9][8-9]* 或 [6-9]*\.[86-9]*， 根 本 没有 把 负数 作为 
一 种 数值 考虑 进来 。 

那么 ， 如 果 我 们 想 修 改 计 算 器 让 其 支持 负数 ， 要 怎么 办 呢 ? 

可 能 有 人 会 想 ， 只 要 在 词法 分 析 絮 中 将 -5 这 样 的 输入 也 作 

为 DOUBLE_LITERAL 来 处 理 不 就 行 了 吗 ? 按 这 种 思路 ，3-5 这 样 的 输入 
会 被 解析 成 3 和 -5 两 个 记号 〈 请 参考 2.1 节 中 的 补充 知识 ) 。 

因此 ， 如 果 不 想 将 负数 作为 记号 处 理 ， 就 应 该 在 语法 分 析 器 中 想 办 法 。 
如 果 用 yacc 的 话 ， 我 们 可 能 首先 会 想到 这 样 做 : 

primary_expression 











: DOUBLE_LITERAL 
| SUB DOUBLE_LITERAL <DOUBLE_LITERAL 之 前 带 “-” 的 部 分 也 解析 为 表达 式 





$$ = -$2; 


} 
《下 面 省 略 ) 





确实 ， 用 这 种 方法 可 以 给 定 值 的 实数 加 上 负 号 - 。 


但 是 ， 用 这 种 方法 给 -(3 * 2) 这 样 囊括 号 的 算式 再 加 上 负 号 是 办 不 到 
的 《有 人 可 能 觉得 办 不 到 也 无 所 谓 ， 请 允许 我 吹 毛 求 疫 一 下 ) 。 为 了 再 
支持 这 种 括号 的 处 理 ， 还 需要 这 样 修改 : 

primary_expression 


: DOUBLE LITERAL 
| SUB primary_expression 


$$ = -$2; 
} 
(下 面 省 略 ) 





那么 在 递归 下 降 分 析 法 中 ， 可 以 允许 负 号 的 语法 图 如 图 2-7 所 示 (这 个 
语法 图 还 包含 了 对 括号 的 文 持 ) 。 


primary_expression 





图 2-7 包含 负 写 的 语法 图 
将 其 转换 为 代码 ， 如 下 所 示 。 





: static double 


1 

2: parse primary_expression() 
3: { 

4: Token token; 

5 double value = 0.0; 

6 int minus flag = ©; 

7 


8 : my_get token(&token); 


9: if (token.kind == SUB OPERATOR TOKEN) { 
10: minus flag = 1; 

11: } else { 

12: unget token(&token); 

13: } 

14: 

15: my_get_ token(&token); 

16: if (token.kind == NUMBER TOKEN) { 

二 7 value = token.value; 

18: } else if (token.kind == LEFT_ PAREN TOKEN) { 
19: value = parse expression(); 

20: my_get token(&token); 

21: if (token.kind != RIGHT PAREN TOKEN) { 
228 fprintf(stderr, "missing ')' error.\n"); 
23: exit(1); 

24: } 

25: } else { 

26: unget token(&token); 

27: } 

28: if (minus flag) { 

29: value = -value; 

30: } 

31: return value; 


32: } 





第 3 章 ”制作 无 类 型 语言 crowbar 





3.1 制作 crowbar ver.0.1 语 言 的 基础 部 分 


本 书 首先 制作 一 门 无 变量 类 型 的 语言 。 像 Perl、Ruby、Python、PHP 这 





些 近 些 年 火 起 来 的 脚本 语言 ， 基 本 都 没有 变量 类 型 。 我 们 把 将 要 制作 的 


语言 命名 为 crowbar。 
本 章 首 先 对 crowbar 的 初始 版 本 〈ver.0.1) 进行 简要 说 明 。 


3.1.1 crowbar 是 什么 


crowbar 不 是 那 种 如 果 找 到 有 四 片 叶子 就 会 有 好 运 降临 的 植物 〈 那 叫 三 
叶 草 ) ， 而 是 如 图 3-1 这 样 形 状 的 工具 。 





图 3-1 名 为 crowbar 的 工具 


之 所 以 起 名 叫 crowbar， 主 要 是 因为 这 次 要 做 的 语言 会 生成 分 析 树 并 执 
行 。 单 就 这 点 来 说 是 与 Perl 比较 接近 的 。 有 和 句 话 是 怎么 说 来 着 ， 对 了 ， 
就 是 那 句 经 党 能 从 新 闻 里 听 到 的 : 

援 棍 状 的 物体 


1 当 刑 事 案 件 发 生 时 ， 如 果 物 证 尚 不 充分 ， 警 方 在 新 闻 发 表 会 上 描述 犯罪 所 使 用 的 道具 时 会 经 常 
用 "“ 手 棍 状 的 物体 ”来 形容 ， 这 一 说 法 对 于 日 本 人 来 说 是 耳熟能详 的 。 由 于 Perl 与 援 棍 在 日 语 中 
发 音 很 接近 ， 所 以 作者 用 crowbar 命名 其 实 是 一 语 双 关 的 小 幽默 。 一 一 译 者 注 


于 是 我 就 以 crowbar 命 名 了 。 喂 ， 别 同 我 扔 石 涉 啊 。 


如 前 文 所 述 ，crowbar 的 语法 应 当 照 顾 本 书 读者 的 习惯 ， 所 以 沿袭 了 C 语 
言 的 语法 。 
口 


首先 将 初版 的 crowbar 命 名 为 crowbar book_ver.0.1， 示 例 代 码 如 代码 清单 
3-1 所 示 。 









































代码 清单 3-1 fizzbuzz_0_1.crb 





1: for (i = 1; i < 1060; i =i+1)ft{ 
2 if (i % 15 == 6) { 

3: print("FizzBuzz\n"); 

4: } elsif (i % 3 == 06) { 

5 print("Fizz\n"); 

6 } elsif (i % 5 == 6) { 


7: print("Buzz\n"); 
8: } else { 
9 print("" +i+ "\n"); 





与 代码 清单 1-1 不 同 的 是 ， 由 于 目 增 运算 符 ++ 尚未 实现 ， 所 以 写成 了 i 


=i+1.。 





这 个 版 本 的 crowbar 还 没有 实现 一 门 编程 语言 应 当 具 备 的 所 有 基本 功能 
(可 能 有 读者 会 说 ， 就 这 样 也 敢 与 Perl 相提并论 呀 ) ， 当 前 版 本 所 实现 
的 功能 ， 会 在 以 后 的 革 节 中 加 以 说 明 。. 


3.1.2 程序 的 结构 


crowbar 与 Perl 一 样 ， 文 持 在 顶层 结构 书写 代码 。 所 谓 的 顶部 结构 ， 即 
函数 或 类 的 外 侧 。 

C 语 言 中 ， 在 函数 的 外 面 可 以 定义 变量 却 不 能 书写 执行 语句 ， 因 此 即便 
只 写 一 句 “hello, world"， 也 需要 main() 函数 。Java 就 更 悲惨 了 ， 必 须 写 
长 长 的 一 串 public class HelloWorld 还 有 public static void 
main(String[] args) 这 种 外 行人 看 来 像 死 语 一 样 的 东西 。 如 果 仅 仅 
这 实在 很 兵 烦 ， 而 对 于 初学 者 来 说 也 增加 了 学 习 
难度。 


在 crowbar 中 ， 如 果 想 写 一 个 显示 “hello, world” 的 程序 ， 只 需 简单 地 写成 
下 面 这 样 就 可 以 了 。 


print("hello, world\n"); 


无 需 再 包 于 函 数 或 者 类 。 
函数 的 定义 ， 需 要 使 用 保留 字 function ， 按 如 下 方式 书写 : 





























# 显 示 将 a 与 b 相 加 的 值 ， 并 且 作 为 返回 值 返回 的 函数 
function hoge(a，b) { 

c=a+b; 

print("a+b.." + C+"\n"); 

















return c; 


} 





函数 定义 在 程序 中 可 以 写 在 任意 位 置 。 程 序 执行 时 ， 首 先 将 顶层 结构 中 
的 语句 从 上 往 下 顺序 执行 ， 函 数 定 义 部 分 会 被 跳 过 。 直 至 函数 被 调 用 
时 ， 才 执行 该 函数 内 的 语句 。 


函数 如 果 不 存在 return 语句 ， 将 返回 特殊 的 常量 nu11 。 
3.1.3 ”数据 类 型 
可 以 使 用 的 数据 类 型 如 下 所 示 。 
。 布尔 型 。 值 可 以 为 true 或 false 。 
。 整数 型 。 其 实 束 是 crowbar 底 层 运行 环境 的 C 语 言 的 int 型 。 
。 实数 型 。 即 crowbar 底 层 运 行 环境 的 C 语 言 的 double 型 。 当 整数 型 
与 实数 型 混合 运算 时 ， 整 数 型 将 被 扩充 为 实数 型 。 


字符 串 型 。 可 以 通过 + 运算 符 连接 。 力 外 ， 如 果 字 符 串 在 左 侧 数 值 
在 右 侧 ， 用 + 连接 的 话 ， 右 侧 将 被 转换 为 字符 串 型 。 























例如 : 


print("16 + 5.." + (16 + 5)); < 将 显示 16 + 5. .15 





原生 指针 型 (Native Pointer ) 。 请 读者 不 要 根据 名 字 将 其 想象 成 那 
种 可 以 直接 访问 内 存 的 绰 恶 指针 ，crowbar 的 原生 指针 型 类 似 于 C 语 
言 的 FILE* ， 是 用 于 在 crowbar 内 部 移动 跳 转 的 类 型 。 详 细 请 参考 
中 


在 book_ver.0.1 中 ， 不 存在 数组 、 关 联 数组 〈associative array) 、 类 、 对 





3.1.4 变量 


crowbar 与 Pearl、Ruby 等 相同 ， 都 是 静态 无 类 型 〈 即 变量 无 需 声 明 类 型 ) 


语言 。 


crowbar 无 需 弯 量 声明 ， 赋 初始 值 时 就 包含 了 声明 过 程 〈 和 Ruby 非 常 类 
似 ) 。 如 果 直 接 引 用 一 个 还 没有 赋值 的 变量 则 会 报错 。 


变量 的 命名 规则 与 C 基 本 一 样 ， 必 须 以 字母 开头 ， 第 二 个 字符 开始 可 以 
使 用 字母 数字 ， 也 支持 下 划 线 。 与 Perl 等 不 同 的 是 ， 变 量 开头 无 需 书写 $ 


付 写 。 


函数 内 首次 进行 赋值 的 变量 会 作为 函数 的 局 部 变量 ， 局 部 变量 的 生命 周 
期 及 作用 域 仅 限于 当前 函数 内 部 。C 语 言 等 还 可 以 在 函数 中 用 {} 再 开辟 
一 个 块 (Block) ， 并 在 块 内 有 更 小 作用 域 的 局 部 变量 ，crowbar 则 不 文 
持 这 种 特性 。 














变量 是 在 赋值 语句 执行 时 进行 声明 的 ， 如 下 例 所 示 : 


if(a == 106) { 
b = 108; 


} 
print("b.." + b); 











a 只 有 为 10 的 时 候 b 才 被 声明 ，print 语句 可 以 正常 显示 。 如 果 a 不 为 
10 则 会 报 出 未 定义 变量 的 错误 。 


在 顶层 结构 中 赋值 的 变量 会 成 为 全 局 变量 。 函 数 中 引用 全 局 变量 时 ， 需 
要 用 global 语句 进行 声明 。 


global 语句 可 以 按 以 下 的 方式 使 用 : 

















比如 函数 内 用 global a; 声明 之 后 ， 在 该 函数 内 就 可 以 引用 全 局 变量 a 








(如 果 全 局 变量 a 不 存在 则 会 报 运行 错误 ) 。 
比如 运行 代码 清单 3-2， 运 行 结果 如 下 所 示 : 


a..30 


运行 结果 第 1 行 的 a. .368 是 代码 清单 3-2 第 10 行 的 print 输出 结果 ， 因 此 
这 里 显示 的 是 func2() 中 被 赋值 的 全 局 变量 a 的 值 。 


第 2 行 的 a. .26 则 是 第 15 行 的 print 结果 ， 显 示 的 是 全 局 变量 a 的 值 。 


因为 有 了 global 语句 ， 所 以 第 5 行 赋值 的 是 全 局 变量 a 的 引用 ， 而 第 9 
行 只 引用 了 局 部 变量 ， 因 此 即使 对 其 赋值 也 不 会 对 全 局 变量 产生 影响 。 


代码 清单 3-2 global.crb 


< 定义 全 局 变量 a 的 声明 























: function func() { 
global a; 
a = 20; < 这 里 的 a 是 全 局 变量 











: } 


8: function func2() { 



































a = 36; < 这 里 的 a 是 局 部 变量 
print("a.." + a+ "\n"); 


: } 


: func(); 
: func2(); 
: print("a.." + a+ "\n"); 





那么 ， 为 什么 一 定 要 使 用 global 语句 声明 后 才 可 以 引用 全 局 变量 呢 ? 
这 样 的 设计 有 以 下 两 个 原因 。 
。 如 果 没 有 任何 约束 残 可 以 直接 引用 全 局 变量 ， 那 么 编写 函数 时 束 必 
须 随时 掌握 所 有 全 局 变量 的 情况 ， 而 对 于 强调 高 内 聚 性 的 函数 来 
说 ， 这 种 设计 会 产生 致命 的 错误 。 


。 全 局 变量 的 使 用 频率 并 不 高 ， 因 此 设置 这 样 一 点 障碍 对 编写 程序 不 
会 产生 太 大 影响 。 


话 虽 如 此 ， 在 使 用 STDIN (标准 输入 的 文件 指针 〉 这 样 的 全 局 变量 时 也 

















必须 声明 ， 还 是 多 少 有 些 不 方便 的 。 
补充 知识 ”初次 赋值 羔 做 变量 声明 的 理由 


如 上 文 所 述 ，crowbar 会 在 变量 初次 赋值 时 兼 做 变量 声明 ， 即 如 条 直接 
使 用 没有 赋值 的 变量 会 报错 。 


比如 在 Perl 中 ， 默 认 情 况 下 ， 即 使 没有 赋值 的 变量 仍然 可 以 使 用 。 此 时 
该 变量 值 会 根据 上 下 文 目 动 转换 。 像 下 面 这 样 书写 的 话 : 

















print 123 * $a; # 对 未 赋值 的 变量 ga 进行 乘法 运算 





运行 结果 为 9 ， 因 为 未 赋值 的 变量 $a 的 值 被 目 动 转换 为 0 了 。 


但 是 这 样 的 设计 容易 因为 变量 名 输入 有 误 而 引起 BUG”。 因 此 在 crowbar 
的 设计 中 ， 只 能 使 用 进行 过 初次 赋值 的 变量 。 

* 上 面 的 语句 在 Perl 中 如 果 加 上 -w 参数 并 运行 的 话 会 出 现 警告 。 

还 需要 注意 的 是 ， crowbar 在 执行 变量 的 赋值 语句 时 才 会 被 声明 ， 而 
Ruby 只 要 书写 了 赋值 语句 就 完成 了 变量 声明 ， 即 赋值 语句 的 执行 不 是 必 
须 的 。 因 此 ， 像 下 面 这 样 : 


x = XxX; # 这 个 例子 中 ， 赋 值 语句 执行 前 ，x 也 可 以 使 用 











if false 
a=1 
end 








print a; # 赋 值 语句 没有 执行 ， 也 可 以 使 用 a。 





这 些 程序 在 Ruby 中 都 是 合法 的 。 关 于 这 样 设 计 的 理由 ，Ruby 的 作者 松 
本 行 弘 先生 做 了 如 下 说 明 (请 参考 rmby-list 邮 件 列表 的 No.33798) : 


全 局 变量 的 作用 域 应 当 通 过 静态 方式 决定 ， 也 就 是 说， 在 赋值 语句 开 
始 执行 才 检 查 变量 是 人 否 存在 ， 这 样 的 设计 并 不 好 。 


因为 动态 的 变量 作用 域 用 户 理解 起 来 有 难度 ， 同 时 也 失去 了 一 次 编程 
语言 中 为 数 不 多 的 可 以 进行 性 能 优化 的 机 会 。 


关于 这 一 点 我 是 持 同意 态度 的 ” ， 那 为 什么 crowbar 中 没有 这 样 去 做 呢 ? 
理由 其 实 很 简单 ， 只 是 ? 想 要 偷懒 一 下 而 已 。 


* 不 过 我 还 是 有 些 介 意 ，Ruby 中 连 类 或 方法 的 定义 都 是 动态 可 执行 的 ， 为 什么 偏偏 变量 的 定义 
要 做 成 静态 的 呢 。 


补充 说 明 各 种 语言 的 全 局 变量 处 理 
下 面 来 看 一 看 其 他 语言 中 全 局 变量 的 处 理 方法 。 


。 Perl : 变量 默认 是 全 局 的 ， 只 有 加 上 1ocal 或 my 等 定义 后 才 会 变 
成 局 部 变量 。 

。Ruby : 用 $ 开头 的 变量 是 全 局 变量 

e : 与 crowbar 一 样 ， 函数 内 要 引用 全 局 变量 的 话 ， 用 global 语 
名 定义 。 


一 般 来 说 ， 程 序 中 应 该 避免 到 处 使 用 全 局 变量 ， 而 尽 可 能 优先 保证 局 部 
变量 的 内 素性 。 从 这 个 角度 来 讲 ，Perl 式 的 设计 是 不 能 借鉴 的 (当然 如 
条 是 一 次 性 的 脚本 ， 这 样 倒是 很 方便 ) 。 Ruby 式 的 设计 是 比较 合 理 的 ， 
但 按 这 个 设计 写 出 来 的 程序 可 能 到 处 是 记号 ， 丧 失 了 程序 的 美感 〈 这 只 
是 我 主观 的 感受 ) 。 因 此 crowbar 采 用 了 PpHP 风 格 的 global 语句 的 设 

a 


3.1.5 ”语句 与 结构 控制 
crowbar 与 C 语 言 一 样 ， 有 if 、while 、for 等 结构 控制 语句 。 
与 C、C++、Java 等 语言 有 以 下 两 处 比较 大 的 区 别 : 


。 crowbar 中 不 允许 出 现 悬 空 else (化 括号 {} 是 强制 书写 的 ) ; 
。 因为 不 允许 悬空 else， 上 所 以 引入 了 elsif 语句 。 
























































具体 来 说 是 下 面 这 样 的 形式 : 
# if 语 句 的 例子 
时 执行 
11) { 
时 执行 
# a 不 为 16 也 不 为 11 时 执行 





# While 语句 的 例子 


while (i < 16) { 
# 并 比 16 小 时 ， 此 处 循环 执行 


} 


# for 语 句 的 例子 
for(i = 8; i<x 106; i=i+1)t 
# 这 里 循环 16 次 























} 











此 外 ， 在 crowbar 中 也 可 使 用 下 列 语句 ， 其 意义 与 C 语 言 相同 。 
。break : 从 最 内 层 的 循环 中 跳出 。 
。 continue : 跳 过 最 内 层 循 环 中 剩余 的 代码 。 
。return : 从 函数 退出 ， 并 将 后 面 的 值 作为 返回 值 返 回 


break 或 continue ， 最 好 能 像 Java 那 样 附加 一 个 标签 ， 但 当前 版 本 还 
没有 这 个 功能 (book_ver.0.3 实 现 了 标签 功能 ) 。 


补充 知识 ”elif、elsif、elseif 的 选择 


C 等 语言 中 ， 计 语句 允许 没有 花 括 号 的 写法 〈 也 称 作 悬空 语句 ) ， 也 可 
以 像 下 例 这 样 用 else if 排列 书写 。 





if (a < 16) { 





C 或 Java 虽 然 设 置 了 这 种 特别 的 结构 控制 语法 ， 但 偶尔 也 有 初学 者 会 误 
解 其 音义， 以 为 else if 不 是 一 个 专用 语句 ， 而 是 else 语句 后 省 略 花 
括号 叉 写 的 一 个 if 语句 。 说 起 来 在 工作 中 的 确 会 遇 到 很 多 项 目 ， 在 编 
ee 明确 规定 了 “禁止 省 略 花 括号 ”， 这 样 就 可 以 放心 地 去 写 else 

TIf J 


crowbar 中 直接 废弃 了 巷 空 语句 ， 无 法 书写 上 述 形 式 的 else if ， 为 此 
特别 引入 了 elsif 。 不 过 不 同 语言 对 于 elsif 的 设计 都 不 太一 样 ， 实 在 
让 人 有 些 头 疼 。 














B Shell、Python、 C 预 处 理 器 


Perl、Ruby、MODULA-2、Ada、Eiffel 











Visual Basic、 PHP 


因为 crowbar 的 目标 就 是 成 为 “Perl 那 样 的 东西 "， 所 以 我 就 私 目 决定 采 
用 elsif 了 。 





3.1.6 ”语句 与 运算 符 
首先 ，crowbar 文 持 以 下 形式 的 常量 作为 语句 。 
。 整数 字面 常量 ， 如 123 等 。 
。 实数 字面 常量 ， 如 123.456 等 。 
。 字符 串 字 面 常 量 。 双 引号 包 于 的 字符 串 ， 如 "abc" 等 。 
另外 变量 也 可 以 作为 语句 。 
进而 可 以 和 运算 符 结 合 构成 更 复杂 的 语句 ， 当 然 还 文 持 括号 。 








crowbar 可 使 用 的 运算 符 如 表 3-1 所 示 〈 按 运算 优先 级 排序 ) 


表 3-1 crowbar 可 使 用 的 运算 符 
-( 单 目 取 人 负 ) | 符号 的 反 转 
* /% 乘法 、 求 余 
Co 








| 比较 
CE 
| 


运算 也 可 以 用 在 实数 上 上， 本质 上 是 在 内 部 调用 了 C 的 函数 fmod()。 


无 论 C 语 言 还 是 crowbar， 都 没有 用 常量 直接 表示 人 负数 。 想 使 用 负数 时 ， 
可 以 使 用 单 目 取 负 符 - 。 


而 与 C 语 言 一 样 ，&& 、| | 都 是 短路 运算 行 。 也 就 是 说 ， 像 下 面 这 样 的 
条 件 语句 : 











当 a < 16 的 条 件 不 成 立时， 不 再 判断 bp < 28 这 一 条 件 语 句 (已 经 短 
路 ， 所 以 表达 式 无 论 真 伪 痢 不 会 在 if 语句 中 执行 ) 。 


3.1.7 内 置 函 数 


内 置 函数 是 crowbar 最 开始 就 包含 的 用 C 语 言 编写 的 函数 。crowbar 当 前 
版 本 的 内 置 函数 如 表 3-2 所 示 。 


表 3-2 ”crowbar book_ver.0.1 的 内 置 函 数 











print(arg) | 显示 are 。are 的 类 型 可 以 是 整数 、 实 数 、 字 符 串 。 























fopen(filename, | 打开 一 个 文件 ， 返 回 文件 指针 。mode 的 可 选 参数 与 C 语 言 的 fopen() 一 样 ( 
Mege) 实 就 是 原封 不 动 的 传 给 了 C 语 言 ) 。 


传 入 fp 即 关 闭 文件 。 











从 fp 中 读 山 一行 字 符 昌 并 返回 。 


fputs(str，fp) | 向 fp 输出 字符 串 ， 输 出 时 不 会 自动 添加 换行 。 














显而易见 ， 基 本 上 上 所 有 文件 操作 函数 的 设计 都 沿袭 了 C 语 言 的 stdio.h。 
只 是 因为 crowbar 有 字符 串 类 型 ， 所 以 fgets() 等 的 用 法 会 稍 有 不 同 。 


此 外 ，fopen() 返回 的 类 型 是 crowbar 才 有 的 “原生 指针 型 >。 上 例 中 只 
是 单纯 指向 C 的 FILE* ， 但 是 这 个 类 型 的 特殊 之 处 远 不 止 于 此 。 比 如 用 
内 置 函数 实现 GUI 时 ， 创 建 一 个 打开 新 窗口 的 函数 create_window() 

， 其 返回 值 应 当 能 表示 一 个 “窗口 ?>， 此 时 就 可 以 考虑 使 用 原生 指针 型 来 
实现 。 





crowbar 中 已 经 默认 声明 了 STDIN 、STDOUT 、STDERR 等 全 局 变量 ， 分 
别 对 应 C 语 言 中 的 stdin 、stdout 、stderr 。 


3.1.8 ”让 crowbar 文 持 C 语 言 调 用 


考虑 到 crowbar 的 用 途 之 一 是 扩展 应 用 程序 ， 那 么 应 当 让 C 语 言 编写 的 其 
他 应 用 程序 可 以 很 容易 地 调用 crowbar 解 释 器 。 


代码 清单 3-3 是 与 当前 版 本 crowbar 所 属 的 main.c 基 本 一 样 的 代码 段 。 调 
用 里 面 这 些 函 数 ， 需 要 用 #include 包含 CRB.h 文 件 。 











代码 清单 3-3”crowbar 被 C 语 言 调用 





CRB_Interpreter *interpreter; 
FILE *fp; 
/* 中 间 省 略 */ 





/* 生成 crowbar 解 释 器 */ 


interpreter = CRB create interpreter(); 





/* 将 FILE* 作 为 参数 传递 并 生成 分 析 树 */ 
CRB_compile(interpreter, fp); 





/* 运行 */ 
CRB_interpret(interpreter); 


/* 运行 完毕 后 回收 解释 器 */ 


CRB_dispose interpreter(interpreter); 











3.1.9 ”从 crowbar 中 调用 C 语 言 〈 内 置 函 数 的 编写 ) 
反 过 来 ， 从 crowbar 中 调用 C 语 言 的 函数 《内 置 函 数 ) 也 同样 容易 。 


首先 用 #include 包含 面 癌 开发 人 员 的 头 文 件 CRB_dev.h， 像 下 面 这 样 
表示 C 函 数 : 


CRB_Value hoge hoge func(CRB_ Interpreter *interpreter， 
int arg count, CRB Value *args) 





/* 中 间 省 略 */ 


return Value ; 





这 里 调用 的 interpreter 是 指 问 解释 器 的 指针 ，arg_count 代表 回访 
函数 传递 的 参数 的 数量 ，args 是 参数 的 值 (CRB_Value 类 型 详 见 3.3.8 
可 





通过 这 种 方式 制作 出 的 C 函 数 ， 通 过 CRB_add_native function() 池 
数 即 可 注册 到 解释 器 中 ， 成 为 crowbar 的 内 置 函数 。 


/* 将 C 的 函数 hoge_hoge_func 注 册 为 一 个 crowbar 可 以 调用 的 内 部 函数 
并 命名 为 hoge_hoge */ 
CRB_add native function(interpreter， 








"hoge_hoge", hoge hoge func); 





3.2 ”预先 准备 
crowbar 的 语法 处 理 嚣 有 一 定 的 行 数 规模 (最 终 版 有 8000 行 左右 )〉， 








此 应 当 预 先 约 定编 码 规范 ， 并 准备 好 底层 的 库 。 
那么 让 我 们 暂时 离开 语法 处 理 器 ， 先 准备 下 面 这 些 事项 吧 。 
3.2.1 模块 与 命名 规则 

crowbar 由 以 下 3 个 模块 构成 : 


。 crowbar 主 程序 (CRB) 
。 内 存 管 理 模块 (MEM) 
。 Debug 模 块 (DBG) 


括号 中 的 CRB、MEM 等 是 模块 名 。 


这 里 我 所 指 的 模块 ， 即 可 以 完成 某 些 特定 功能 的 程序 块 。 一 个 模块 中 基 
本 都 会 包含 多 个 .c 文 件 。 

MEM 与 DBG 均 为 通用 模块 ， 并 不 是 crowbar 专 用 的 。 代 码 分 别 位 于 
crowbar 文 件 夹 下 的 memory、debug 子 文件 夹 中 ，。 


C 语 言 中 没有 C++ 和 C# 的 命名 空间 ， 也 没有 Java 中 的 包机 制 ， 因 此 必须 
制定 命名 规范 来 避免 可 能 出 现 的 命名 冲突 。 因 此 我 们 使 用 以 下 的 命名 规 


范 。 
1. 模块 必须 有 前 级 3 个 字母 的 缩写 (如 : CRB ) 。 


2. 类 型 名 ， 以 大 写字 母 开始 ， 并 使 用 下 划 线 连接 单词 
(如 : CRB_Interpreter ) 。 


3. 变量 名 / 阔 数 名 ， 全 部 使 用 小 写字 母 ， 使 用 下 划 线 连接 单词 


(如 : alloc expression() ) 。 


4. 宏 命 名 为 全 大 写字 母 ， 使 用 下 划 线 连接 单词 〈 如 : 
Re SIZE) 。 但 如 果 是 市 参数 的 宏 ， 
特别 是 具有 函数 功能 的 部 分 ， 则 要 遵循 函 数 的 命名 规则 
(如 : small(a, b))。 


5. 模块 中 辣 外 公开 的 函数 ， 命 名 以 模块 名 (大 写字 母 》+ 下 划 线 作 








为 前 级 〈 如 : CRB_create interpreter())。 


6. 模块 中 不 对 外 公开 的 函数 ， 如 果 函 数 的 作用 域 跨 文件 时 ， 则 函数 
名 以 模块 名 《小 写字 母 ) + 下 划 线 作为 前 绥 


(如 : crb alloc_expression() ) 。 


7. 函数 外 的 静态 变量 名 以 st_ 作为 前 组 
(如 : st_string literal buffer ) 。 


各 模块 中 辐 外 部 公开 的 接口 需要 做 成 公有 头 文 件 的 形式 ， 在 头 文 件 中 
定义 了 公开 函数 以 及 调用 模块 所 需 的 类 型 。 比 如 crowbar 中 ， 想 使 用 
crowbar 解 释 器 束 需 要 包含 CRB.h， 而 编写 crowbar 的 内 置 函 数 则 需要 包 
售 CRB_dev.h。 


各 模块 内 部 使 用 的 类 型 、 宏 、 函 数 等 ， 则 可 以 声明 为 私有 头 文件 。 比 
如 在 crowbar 中 ，crowbar.h 就 是 一 个 私有 头 文件 ， 其 中 声明 的 类 型 名 或 
宏 无 需 附 加 CRB_ 前 级 (因为 外 部 是 接触 不 到 的 ) 。 但 是 函数 与 全 局 变 
量 ， 为 了 以 防 万 一 还 是 需要 加 上 crb_ 前 级 的 。 


2.3.1 节 后 的 补充 知识 中 曾 写 道 ， 所 有 的 头 文 件 应 当 尽 量 只 用 一 

个 #include (前 提 是 已 经 加 入 了 防止 多 重 定义 的 处 理 ) 。 因 此 大 多 数 
情况 下 ， 私 有 头 文件 内 部 可 以 用 #include 包含 公有 头 文 件 ， 反 之 则 不 
行 。 内 部 文件 中 使 用 公共 信息 ， 而 外 部 文件 中 则 不 能 含有 私有 信息 ， 这 
应 该 不 难 理解 。 


经 过 上 述 的 处 理 ， 各 模块 的 内 部 细 市 都 可 以 对 其 他 模块 实现 隐藏 〈 即 面 
回 对 象 中 常 提 到 的 封装 概念 ) 。 此 外 ， 在 C 语 言 中 ， 头 文件 修改 后 包含 
该 头 文 件 的 源 代 码 都 需要 重新 编译 。 将 头 文件 划分 为 公有 及 私有 ， 只 要 
保证 公有 头 文 件 不 修改 ， 那 么 用 户 利 用 公有 头 文件 编写 的 程序 也 残 无 需 
重新 编译 了 。 


crowbar 的 模块 与 目录 结构 如 图 3-2 所 示 。 

















${fCROWBRR} ( crowbar 所 在 目录 ) 

CRB .h… 面向 crowbar 用 户 的 接口 
CRB_dev.h*… 面向 内 置 函 数 开发 人 员 的 接口 
MEM.h… 面向 MEM 用 户 的 接口 


DBG.h… 面向 DBG 用 户 的 接口 
make 可 以 生成 的 执行 文件 及 main.c 等 





$ {CROWBAR} /memory 
( MEM 所 在 目录 ) 





${CROWBAR} /debug 
( DBG 所 在 目录 ) 






图 3-2 crowbar 的 模块 与 目录 结构 


3.2.2 ”内 存 管理 模块 MEM 


经 常 使 用 C 的 程序 员 应 该 深 有 体会 ， 用 C 语 言 编 程 时 ， 难 人 免 会 过 到 诸如 

内 存 损坏 (memory corruption) BUG、 访 记 释 放 内 存 引 起 内 存 泄漏 、 引 
用 的 内 存 区 域 被 释放 让 BUG 难 以 重 现 等 问题 ， 总 之 围绕 内 存 经 常会 发 生 
很 多 让 人 讨厌 的 BUG。 


而 由 于 crowbar 还 设置 有 字符 串 型 的 变量 ， 可 以 用 + 运算 符 连 接 字 符 串 ， 
因此 我 们 必须 配置 茶 种 垃圾 回收 机 制 。 比 如 : 





这 个 语句 运行 的 时 候 ， 首 先 执行 "a" + "b" 语句 生成 字符 串 "ab" ， 然 
后 为 了 继续 生成 "abc"”， "ab" 的 内 存 空间 必须 目 动 释放 。 具 体 的 运行 
过 程 请 参考 3.3.11 市 。 正 是 由 于 运行 时 需要 运行 很 多 这 样 繁复 的 处 理 ， 

很 容易 出 现 BUG， 所 以 需要 有 一 种 方法 来 确认 内 存 中 到 底 发 生 了 什么 。 


基于 上 述 理由 ， 我 制作 了 一 个 具备 下 列 功 能 的 内 存 管理 模块 。 模 块 名 为 
MEM， 按 之 前 的 命名 规范 ， 所 有 的 公共 函数 都 以 MEM_ 为 前 级 。 


1. 通过 MEM_malloc() 可 以 分 配 内 存 空间 ， 内 存 空间 开始 处 默认 填 
加 () 








充 有 exCC 。 常 规 的 malloc() 函数 开辟 的 内 存 空 间 值 为 0 的 情况 
很 多 ， 因 此 很 容易 遗漏 初始 化 过 程 。 而 6xCC 片 无 疑问 是 个 无 意 
义 的 值 ， 这 样 就 可 以 确保 能 够 检查 出 被 遗漏 的 初始 化 过 程 。 


2. MEM_realloc() 用 于 扩充 内 存 空 间 时 ， 也 会 默认 填充 @xCC 。 


3. 开辟 的 内 存 空间 用 MEM_free() 释放 时 ， 被 填充 的 6xCC 也 会 被 释 
放 。 由 此 可 以 较 早 地 发 现 由 于 引用 被 释放 的 内 存 空间 而 引起 的 
BUG 。 


4. MEM 模 块 会 以 链表 形式 保存 所 有 开辟 的 内 存 空间 ， 可 以 使 
用 MEM_dump_blocks() 将 其 转 储 。 转 储 后 可 以 将 MEM_malloc 
调用 位 置 的 源 文件 名 及 行 号 显示 出 来 。 


用 malloc() 开辟 的 内 存 空间 ， 在 不 用 的 时 候 一 定 要 用 free() 释 
有 这 是 我 们 在 编程 时 一 定 要 遵守 的 一 个 准则 。 那 么 如 果 在 程序 

结束 时 调用 MEM_dump_blocks() 仍然 看 到 有 结果 输出 的 话 ， 就 
可 以 断定 某 处 发 生 了 内 存 泄 漏 。 


5. MEM_malloc() 开辟 的 内 存 空间 在 传递 给 程序 使 用 时 ， 空 间 前 后 
会 加 上 8xCD 的 记 和 号， 检查 这 些 记号 就 可 以 知道 由 于 数组 越界 等 
问题 引起 的 内 存 损坏 程度 了 。 


这 个 检查 还 需要 配合 使 用 MEM_check_block() 
、MEM_check_all _ blocks() 等 函数 。 


内 存 管理 模块 MEM 会 以 图 3-3 的 形式 管理 内 存 。 




















用 双向 链表 管理 内 存 块 





_FILE_ 和 _LINE_ 代表 
当前 内 存 空间 被 开辟 的 
源 文 件 名 及 行 号 。 

图 3-3 ”通过 MEM 管 理 内 存 


很 简单 的 模块 ， 功 能 虽然 简单 ， 但 对 于 BUG 的 检查 非常 有 用 。 





对 于 动态 开辟 的 内 存 空间 ， 经 常会 先 开辟 肴 干 个 小 型 的 区 域 ， 然 后 将 这 
些 区 域 一 起 释放 。 分 析 树 的 节点 就 是 典型 的 例子 。 开 辟 空 间 会 一 点 一 点 
地 进行 ， 释 放 则 是 一 次 性 的 。 对 此 ，MEM 模块 引入 了 存储 器 
Cstorage) ， 作 为 开辟 内 存 的 常规 工具 。 


1. 由 MEM_open_storage() 生成 一 个 新 的 存储 器 。 


2. MEM_storage_malloc() 可 以 接受 存储 器 和 空间 的 大 小 作为 入 
口 参数 ， 并 返回 所 请 求 大 小 的 内 存 空间 。 


3. Ee posure) 将 存储 器 内 所 有 的 内 存 空间 全 部 释 
太 。 








MEM_storage_malloc() 会 将 MEM_open_storage() 开辟 的 较 大 内 存 
空间 ， 从 起 始 处 按照 请 求 的 尺寸 一 次 性 全 部 返回 。 因 此 无 法 对 其 中 的 子 
空间 单独 释放 ， 也 不 能 通过 realloc() 扩展 空间 。 


补充 知识 valgrind 


我 们 手动 实现 了 模块 MEM， 它 可 以 检查 由 于 C 语言 操作 内 存 而 引起 的 
BUG， 其 实 也 有 很 多 其 他 工具 具备 同样 的 功能 。 


以 前 这 类 工具 大 都 是 需要 付费 的 ， 不 过 在 Linux 环 境 下 ， 可 以 使 用 免费 
软件 valgrind (许可 证 为 GPL) 。 


通常 我 们 使 用 下 面 的 方式 局 动 程序 (% 是 命令 行 提示 符 〉。 


% crowbar test.crb 


而 执行 如 下 指令 的 话 ， 


% valgrind crowbar test.crb 


可 以 帮助 我 们 检查 是 否 起 记 释 放 内 存 (或 内 存 泄漏 ) ， 以 及 是 否 在 程序 
开辟 的 内 存 空间 外 部 进行 了 写 入 。 

可 能 有 读者 会 问 ， 有 这 么 方便 的 工具 为 什么 还 要 制作 MEM 模 块 呢 ? 实 
际 上 ， 我 在 号 MEM 模 块 时 完全 不 知道 有 valgrind 这 个 工具 ， 算 是 重复 发 
明 轮 子 了 。 不 过 目 己 实现 一 个 这 样 的 工具 也 是 有 好 处 的 吧 。 


valgrind 的 详细 内 容 ， 请 参考 官方 主页 http:/valgrind.org/ 。 























补充 知识 ”富翁 式 编 程 

MEM 模 块 中 ， 在 应 用 程序 所 使 用 的 内 存 空间 前 后 分 别 加 上 了 管理 专用 

空间 。 比 如 开发 环境 中 int 型 或 者 指针 一 般 占 用 4 字 市 ，double 型 一 般 占 
用 8 学 表 ， 而 其 管理 空间 前 面 占 用 24 字 节 ， 后 面 则 有 8 字 节 《包含 校 验 信 
Is 


那么 如 果 生 成 很 多 对 象 时 ， 肯 定 会 浪费 很 多 内 存 空间 。 
然而 对 于 现在 的 电脑 来 说 ， 这 种 程度 的 浪费 人 简直 古 微不足道 的 。 与 其 竖 


思 舌 想 节 省 内 存 空 间或 提高 处 理 速度 的 小 技巧 ， 倒 不 如 专注 于 如 何 提高 
开发 效率 。 这 种 编程 方式 就 叫 作 富翁 式 编程 ”。 


























参考 URL: http:Wwww.pitecan.com/fugo.html 





crowbar 的 实现 就 非常 之 “ 定 兮 ”"。 比 如 用 crowbar 书 写 的 程序 中 会 出 现 
hoge_piyo_foo_bar 这 样 一 个 变量 。 对 于 现代 编程 语言 来 说 ， 这 样 长 
的 变量 名 或 函数 名 是 很 常见 的 。 在 程序 中 ，hoge_piyo_foo_bar 变量 
名 可 能 还 会 出 现 奉 干 次 ，crowbar 的 解释 器 将 会 预先 对 所 有 出 现 的 变量 
名 分 配 好 空间 ， 当 然 这 都 是 要 消耗 内 存 的 ， 最 终 只 需要 用 strcmp() 简 
单 地 对 当前 变量 名 做 一 致 性 检查 就 可 以 了 。 另 外 ， 在 检索 变量 或 函数 
时 ， 都 采用 线性 检索 。 


这 样 设计 当然 可 能 会 出 现 运行 速度 慢 的 情况 ， 即 便 如 此 ， 等 到 状况 发 生 
时 再 想 办 法 优化 也 不 迟 。 在 前 期 优先 考虑 的 应 该 是 如 何 让 程序 更 加 容易 
编写、 理解 起 来 更 加 简单 。 


补充 知识 ”符号 表 与 扣留 操作 


刚刚 提 到 过 ， 无 论 是 内 存 空间 还 是 处 理 速度 ，crowbar 的 内 部 实现 都 是 
比较 “富翁 式 ” 的 。 那 么 如 果 在 此 基础 上 想 要 进一步 提高 运行 效率 的 话 要 
怎样 做 呢 ? 


正如 上 文 所 述 ，crowbar 对 于 程序 中 多 次 出 现 的 变量 名 等 ， 会 分 别 开 尽 
空间 将 其 保存 。 如 果 变 量 名 较 长 时 比较 浪费 ， 因 此 将 同名 变量 整合 为 一 
处 保存 ， 不 失 为 一 个 提高 效率 的 方法 。 


具体 来 说 ， 程 序 中 会 存在 一 个 冰 数 ， 为 所 有 出 现 的 特征 符 建立 数据 结 

构 ， 新 出 现 的 特征 符 如 果 已 经 被 记录 则 会 返回 其 指针 ， 如 果 尚 未 记录 则 
会 新 录入 并 返回 指针 。 这 样 的 操作 称 为 扣留 〈intern) 。。 对 一 个 标识 
符 进 行 扣留 操作 时 ， 无 需 判别 该 标识 符 是 局 部 变量 还 是 全 局 变量 ， 或 是 
函数 名 《当然 进行 判别 也 无 妨 ) 。 


对 程序 中 出 现 的 所 有 的 标识 符 一 一 进行 扣留 操作 的 话 ， 在 判断 两 个 标识 
符 是 否 为 同一 个 时 ， 只 需要 比较 它们 的 指针 就 可 以 了 。 这 比 
用 strcmp() 更 快 。 


而 crowbar 对 于 局 部 变量 、 全 局 变量 和 函数 则 分 别 使 用 链表 进行 管理 。 

一 旦 语句 中 出 现 变 量 名 时 ， 将 从 链表 头 部 开始 检索 〈 采 用 线性 检索 ) 。 
如 果 要 优化 这 个 部 分 ， 可 以 考虑 引入 缓存 、 树 或 二 分 法 查找 等 。 刚 才 所 
到 的 这 些 数据 结构 及 算法 ， 部 是 编程 语言 语法 处 理事 普 衣 使 用 的 ， 读 者 












































可 以 目 行 得 阅 相关 图 书 或 网 站 。 


一 直 玉 说 ， 我 们 将 编译 吕 保 存 变 量 名 、 函 数 名 的 数据 结构 称 为 符号 








3.2.3 ”调试 模块 DBG 


DBG 是 调试 时 使 用 的 模块 ， 有 具备 奋 干 功能 ， 在 crowbar 的 代码 中 使 用 的 
话 ， 只 需要 调用 宏 DBG_assert() 及 DBG_panic() 即 可 。 


/* 断言 这 里 a 的 值 应 该 为 5 */ 
DBG assert(a == 5, ("a..%d", a)); 








这 样 书写 的 话 ， 当 a == 5 这 一 条 件 不 成 立时 ， 程 序 会 将 该 处 的 源 代码 
行 写 输出 并 执行 abort() 。 第 二 个 入 口 参 数 则 是 将 想 要 输出 的 东西 传递 
给 printf() 并 格式 化 (因为 宏 无 法 使 用 可 变 长 度 的 参数 ， 因 此 需要 从 
第 二 参数 起 全 部 用 括号 括 起 来 ) 。 


DBG 的 输出 目标 可 以 通过 DBG_set_debug_write_fp() 函数 进行 更 
改 ， 标 准 输出 目标 是 stderr 。 而 输出 目标 无 论 如 何 更 改 ，stderr 仍然 
会 保留 一 份 同样 的 信息 。 因 此 如 果 不 做 任何 更 改 的 话 ， 会 看 到 stderr 
输出 的 是 两 行 同样 的 信息 。 


DBG_panic() 函数 可 以 书写 在 一 些 程序 不 应 该 进入 的 分 文 处 。 典 型 的 
例子 就 是 switch case 的 default 分 支 ， 如 : 
/* 变量 operator 通 过 switch case 判 断 分 文 条 件 


default 分 支 在 正常 情况 下 不 应 当 进 入 */ 
default: 














DBG panic(("bad case...%d", operator)); 








与 DBG_assert() 一 样 ， 用 两 层 括 号 包 囊 ， 最 终 会 通过 printf() 格式 
化 输出 。 


DBG_assert() 与 DBG_panic() 都 是 宏 ， 只 要 在 定义 #define 
DBG_NO_DEBUG 的 状态 下 编译 ， 就 可 以 完全 删除 执行 文件 中 的 调试 部 
分 。 


3.3 ”crowbar ver.0.1 的 实现 





预先 准备 已 经 差不多 了 ， 终 于 可 以 开始 疯 读 crowbar book_ver.0.1 的 代码 
Te 


3.3.1 crowbar 的 解释 器 一 一 CRB_Interpreter 





一 般 来 说 ， 程 序 的 数据 结构 要 比 运行 流程 更 加 重要 ， 因 此 我 们 就 从 
crowbar 解 释 器 所 用 的 结构 体 CRB_Interpreter 开始 看 起 。 


想 使 用 crowbar， 首 先 需要 生成 解释 器 ， 然 后 将 解释 器 的 源码 传递 给 编 
译 器 (生成 分 析 树 〉， 就 可 以 运行 了 。 


解释 器 的 定义 如 下 所 示 〈 位 于 crowbar.h) 。 注 意 CRB.h 中 公开 的 
CRB_Interpreter 是 这 个 结构 体 的 不 完全 定义 ， 下 面 这 个 结构 体 定 义 
本 身 对 外 是 隐藏 的 。 


struct CRB_ Interpreter tag { 
MEM _ Storage interpreter_ storage; 
MEM Storage execute storage; 
Variable *vyariable; 
FunctionDefinition *function list; 


StatementList *statement list; 
int current _ line number; 





解释 器 会 保存 以 下 内 容 : 
1. 与 解释 器 相同 生命 周期 的 MEM_Storage (interpreter_storage) 


不 再 需要 分 析 树 时 ， 需 要 将 其 释放 ， 如 3.2.2 节 所 述 ， 可 以 使 用 内 存 管理 
模块 MEM 提 供 的 存储 器 功能 来 管理 。 


interpreter_storage 存储 器 ， 在 解释 器 生成 时 被 生成 ， 解 释 器 废弃 
的 同时 被 释放 。 通 过 CRB_Interpreter 自己 来 开辟 这 个 存储 器 。 


该 存储 器 在 内 存 中 的 开辟 ， 是 通过 位 于 util.c 中 的 crb_malloc() 工具 函 
数 实现 的 。 








2. 运行 时 使 用 的 MEM_Storage (execute_storage) 


execute_storage 是 运行 时 使 用 的 存储 器 。 不 过 由 于 运行 时 必 备 的 数 
据 结 构 大 多 数 都 没有 固定 的 释放 顺序 ， 因 此 execute_storage 现 阶段 
主要 用 于 存放 全 局 变量 。 

3. 全 局 变量 链表 (variable ) 


Variable 结 构 体 的 定义 如 下 所 示 : 


typedef struct Variable tag { 
char *name; /* 变量 名 */ 
CRB_Value value; /* 变量 值 */ 








struct Variable tag *next; /* 指向 下 一 个 变量 的 指针 */ 
} Variable; 











首先 这 个 结构 体 中 有 next 这 一 成 员 ， 这 是 为 了 构建 链表 用 
的 。CRB_Interpreter 的 成 员 variable 保存 在 最 开头 。 通 过 这 样 的 链 
表 ， 可 以 得 到 所 有 的 全 局 变量 。 


crowbar 中 变量 是 在 首次 赋值 时 生成 的 ， 因 此 在 运行 时 会 有 变量 逐一 进 
入 ， 链 表 也 会 越 来 越 长 。 


Variable 结构 体 的 name 成 员 顾 名 思 义 会 保存 变量 名 ， 而 value 成 员 则 
会 保存 该 变量 的 值 ， 上 有 具体 请 参考 3.3.8 节 对 CRB_Value 的 说 明 。 


4. 函数 定义 链表 (function 1list ) 


function_list 是 记录 crowbar 中 编写 函数 的 链表 。 语 法 解析 时 会 创建 
这 个 function_1ist 以 及 下 面 的 statement_list 。 














FunctionDefinition 类 型 的 定义 如 下 所 示 : 





typedef enum { 
CROWBAR_FUNCTION_DEFINITION = 1， /* crowbar 中 定义 过 的 函数 */ 
NATIVE_FUNCTION_DEFINITION /* 内 置 函 数 */ 

} FunctionDefinitionType; 


typedef struct FunctionDefinition tag { 
char *name; ”/* 函数 名 */ 


FunctionDefinitionType type; /* 函数 的 类 型 */ 


union { 
struct { 
ParameterList *parameter; /* 参数 的 定义 */ 
Block *block; /* 函数 的 主体 */ 
} crowbar _f; 
struct { 
CRB_NativeFunctionProc *proc; /* 后 文 详 述 */ 
} native f; 
}u; 
struct FunctionDefinition tag *next; /* 链表 用 */ 




















} FunctionDefinition; 





FunctionDefinition 类 型 的 type 成 员 中 ， 会 区 分 crowbar 定 义 的 函数 
以 及 内 置 函数 。crowbar 定 义 的 函数 会 使 用 下 面 联合 体 u 的 crowbar_f 

、 而 内置 函数 则 会 使 用 native_ 通过 这 种 方法 ， 可 以 让 没有 继承 概 
念 的 C 语 言 实 现 类 似 继承 的 功能 (具体 方法 之 后 会 慢 慢 提 到 )〉。 





crowbar 定 义 的 函数 会 通 Re _ 下 成 员 保存 其 函数 参数 及 函数 主体 
(执行 语句 ) 。ParameterList 二 构 体 如 下 所 示 ， 会 将 变量 名 做 成 链 
表 并 保存 〈crowbar 是 无 类 型 语言 ， 无 需 保 存 变 量 类 型 ) 。 





typedef struct ParameterList tag { 
char *name; /* 变量 名 */ 
struct ParameterList tag *next; /* 链表 所 用 指 























} ParameterList; 





用 block 成 员 保存 函数 的 执行 语句 。block 是 Block 类 型 的 结构 
体 ，Block 类 型 的 定义 如 下 所 示 ; 


typedef struct { 
StatementList *sctatement list; 


} Block; 





StatementList 正如 其 名 称 ， 是 语句 的 链表 。 其 结构 体内 容 请 参考 第 5 
项 。 


语句 链表 (statement_list ) 


statement_1ist 是 语句 的 链表 。 其 类 型 与 上 面 的 Block 结构 体 保存 时 
所 用 的 StatementList 类 型 相同 。 无 论 是 函数 定义 { } 内 的 语句 ， 还 
是 顶层 结构 中 的 语句 ， 从 内 部 来 讲 都 保存 在 StatementList 中 。 


crowbar 的 解释 堪 在 语法 解析 后 ， 顶 层 结构 的 语 负 ， 也 束 
是 statement_1ist 最 开头 保存 的 语句 会 按照 顺序 开始 执行 。 


6. 编译 时 当前 的 行 号 《current line_number) 




















出 现 错误 信息 需要 行 号 。current_line_number 可 以 在 编译 时 显示 当 
前 的 行 号 。 


current_line_number 在 编译 结束 后 不 会 再 使 用 。 运 行 时 如 有 末 发 生 错 


误 当 然 也 需要 显示 行 写 ， 这 里 的 行 写 保存 在 分 析 树 的 语句 市 点 中 。 
补充 知识 ”不 完全 类 型 


CRB_Interpreter 类 型 结构 体 是 在 crowbar 的 私有 头 文件 crowbar.h 中 定 
义 的 。 不 过 这 是 供 解 释 器 内 部 使 用 的 数据 结构 ， 不 应 该 同 外 部 公开 。 


而 生成 解释 器 的 函数 CRB_create_interpreter()， 它 的 原型 定义 则 
是 在 公有 头 文件 CRB.h 中 : 


CRB_Interpreter *CRB create interpreter(void); 


CRB_create_interpreter() 返回 值 的 类 型 为 CRB_Interpreter*， 
为 了 支持 这 样 的 原型 定义 必须 首先 定义 CRB_Interpreter 结构 体 。 但 
是 我 们 不 能 把 解释 器 的 内 部 定义 直接 拿 出 来 放 在 公有 头 文件 中 。 

应 对 这 种 情况 可 以 使 用 不 完全 类 型 。 公 有 头 文件 中 只 定义 结构 体 的 标 
识 符 ， 实 际 的 定义 是 由 私有 头 文件 传递 给 公有 头 文 件 的 。 

比如 上 面 的 CRB_Interpreter 类 型 ， 在 CRB.h 中 可 以 做 如 下 的 标识 符 
定义 ， 并 用 typedef 命名 。 


typedef struct CRB_ Interpreter tag CRB_Interpreter; 




















这 种 状态 的 CRB_Interpreter 就 是 不 完全 类 型 。 


不 完全 类 型 只 能 使 用 指针 ， 即 指 问 不 完全 类 型 的 指针 的 变量 无 法 被 声 

明 ， 不 完全 类 型 本 身 也 无 法 声明 变量 ， 对 不 完全 类 型 无 法 使 用 sizeof 
。 因 此 ， 我 们 是 无 法 知道 一 个 不 完全 类 型 的 大 小 的 ， 当 然 也 无 法 引用 其 
成 员 。 


而 crowbar.h 是 类 型 初始 定义 所 在 的 地 方 ， 因 此 没有 这 些 限制 ( 详 见 3.3.1 
节 ) 。 这 里 的 CRB_Interpreter 类 型 就 不 是 不 完全 类 型 。 


上 述 都 是 C 语 言 编程 中 必须 掌握 的 一 些 技巧 ， 但 我 意外 地 发 现 似 乎 了 解 
的 人 不 多 ， 因 此 写 了 下 来 。 





3.3.2 ”词法 分 析 一 一 crowbar.] 


crowbar 的 lex 定 义 文件 是 crowbar.1。 源 代码 的 摘录 版 本 如 代码 清单 3-4 所 
示 。 


代码 清单 3-4 crowbar.l 





1: %{ 
省 略 C 编 码 部 分 





























19: %} 
开始 条 件 
20: %start COMMENT STRING LITERAL STATE 
21: %% 
保留 字 的 定义 
22: <INITIAL>"function" return FUNCTION; 
23: <INITIAL>"if" return IF; 
省 略 其 他 的 保留 字 定 义 
符号 类 的 定义 。LP，RP 是 Left/Right Paren 的 缩写 
LC，RC 是 Left/Right Curly〈 花 括号 ) 的 缩写 




















35: <INITIAL>"(" return LP; 

36: <INITIAL>")" return RP; 

37: <INITIAL>"{" return LC; 

38: <INITIAL>"}" return RC; 
省 略 其 他 的 符号 定义 





























标识 符 〈 变 量 名 、 函 数 名 等 ) 
55: <INITIAL>[A-Za-z_][A-Za-z 6-9]* { 


56 : yylval.identifier = crb_create identifier(yytext); 
57: return IDENTIFIER; 
58: } 














数值 。 整 数 类 型 与 实数 类 型 分 别处 理 ， 与 mycalc.y 相 同 











59 : 
60: 
61: 
62: 
63: 
64: 
65: 
66: 
67: 
68: 
69: 
70: 


71: 
72: 
73: 
74: 
75: 


76: 


77: 


78: 
79: 
80: 
81: 
82: 
83: 
84: 
85 : 
86 : 
87 : 
88 : 
89 : 
90 : 
91 : 
92 : 
93 : 
94 : 
95 : 
96 : 
97 : 
98 : 
99 : 
100 : 
101 : 
102 : 


<INITIAL>([1-9][6-9]*)|"e" { 
Expression *expression = crb alloc expression(INT EXPRESSION); 


sscanf(yytext, "%d", &expression->u.int value); 
yylval.expression = expression; 
return INT_LITERAL 

} 

<INITIAL>[6-9]+\.[6-9]+ { 


Expression *expression = crb alloc expression(DOUBLE EXPRESSION); 
sscanf(yytext, "%1lf", &expression->u.double value); 
yylval.expression = expression; 
return DOUBLE_LITERAL 
} 
开始 定义 字符 串 
<INITIAL>\" { 





crb_open_ string literal(); 
BEGIN STRING LITERAL STATE; 
} 
<INITIAL>[ \t] ; 


遇 到 换行 符 则 增加 行 号 
<INITIAL>\n {increment line number();} 








定义 注释 的 开始 
<INITIAL# BEGIN COMMENT; 
如 果 不 符合 上 述 定义 ， 则 为 非法 字符 并 报错 
<INITIAL>. { 
char buf[LINE BUF_ SIZE]; 
if (isprint(yytext[6])) { 
buf[6] = yytext[6]; 
buf[1] = "6 ; 
} else { 
sprintf(buf, "Ox%82x", (unsigned char)yytext[0]); 
} 
crb_compile error(CHARACTER_INVALID_ERR, 
STRING MESSAGE ARGUMENT, "bad char", buf, 
MESSAGE ARGUMENT_END); 
} 
<COMMENT>\n { 
increment line number(); 
BEGIN INITIAL; 
} 
<COMMENT>. > 
<STRING LITERAL STATE>\" { 
Expression *expression = crb alloc expression(STRING EXPRESSION); 
expression->u.string value = crb close string literal(); 
yylval.expression = expression; 
BEGIN INITIAL; 
return STRING LITERAL; 


164: 《STRING_LITERAL_STATE>ANn { 


165 : crb_ add_string_literal('Nn ) 

166 : increment line number(); 

167: } 

168: <STRING LITERAL STATE>\\\" crb_add string literal('"'); 

169: <STRING LITERAL STATE>\\n crb_add string literal('\n'); 

116: <STRING LITERAL STATE>\\t crb_add string literal('\t'); 

111: <STRING LITERAL STATE>\\\\ crb_add string literal('\\'); 

112: <STRING LITERAL STATE>. crb_add string literal(yytext[08]); 
113: %% 





crowbar.] 与 之 前 计算 器 的 例子 mycalc.1] 相 比 《〈 人 代码 清单 2-1) 要 长 很 多 ， 
但 本 质 上 没有 太 大 变化 ， 只 是 使 用 了 新 的 开始 条 件 功能 。 与 mycalc.] 不 
同 的 是 ， 在 crowbar.1] 的 大 部 分 规则 前 都 要 书写 <INITIAL> ， 这 就 是 开始 
条 件 。 


在 crowbar 中 ， 开 始 条 件 主要 用 于 分 割 注 释 与 源 文 本 〈literal) 。 


crowbar 的 注释 由 # 开头 直到 行 尾 ， 可 以 用 简单 的 正则 表达 式 #.*$ 将 其 
分 割 ， 分 割 出 的 注释 暂时 保存 在 全 局 变量 yytext 中 。 


在 以 前 的 lex 处 理 器 中 ， 给 yytext 分 配 了 一 个 固定 大 小 的 char 数组 ， 

而 且 数 组 的 大 小 是 无 法 扩展 的 。 不 过 包含 flex 在 内 ， 最 近 发 布 的 lex 处 理 
器 中 ，yytext 已 经 更 改 为 char* ， 当 一 个 很 长 的 记号 进入 时 ， 也 可 以 
动态 扩展 储存 空间 ， 注 释 最 终 也 是 要 被 丢弃 的 ， 如 果 还 在 这 里 特意 去 扩 
展 存 储 空间 的 话 ， 束 显得 有 点 条 了 。 

crowbar 的 字面 常量 与 C 语言 一 样 ， 是 包含 \n 和 Nt 的 ， 还 可 以 通过 \" 
显示 双 引 号 本 身 ， 因 此 简单 通过 \".*\" 的 正则 表达 式 规则 进行 匹配 是 
不 行 的 。 

应 对 这 种 情况 可 以 使 用 开始 条 件 。 在 动作 中 书写 BEGIN COMMENT 切换 


lex 的 状态 ， 其 对 应 的 规则 就 变 成 后 面 用 <COMMENT> 开始 的 部 分 了 。lex 
使 用 INITIAL 定义 了 开始 条 件 的 初始 状态 。 


crowbar.] 中 ， 通 过 下 面 的 处 理 将 注释 读 入 并 丢弃 。 


77: <INITIAL ># BEGIN COMMENT; 
中 间 省 略 











92: 《COMMENT>ANn { 


93: increment line number(); 
94: BEGIN INITIAL; 

95: 

96: 《COMMENT > . 





代码 第 77 行 ，INITIAL 状态 下 如 果 有 # 进入 ， 则 转换 为 COMMENT 状态 。 





crowbar 的 注释 由 # 开始 直至 行 尾 ， 因 此 在 COMMENT 状态 下 如 果 遇 到 换行 
则 切换 回 INITIAL 状态 《第 92 一 95 行 的 increment_1Line_number() 会 
在 后 文 详 述 ) 。 所 以 ，COMMENT 状态 下 会 将 除 换行 符 以 外 的 字符 全 部 丢 
弃 〈 第 96 行 ) 。 


关于 字符 串 的 字面 常量 处 理 ， 开 始 时 调 

用 crb_open_string literal()， 中 间 的 字符 通过 
crb_add_string literal() 追加 ， 最 后 通过 
crb_close_string_literal() 结束 一 个 字符 串 的 处 理 。 


在 这 个 过 程 中 ， 字 符 串 会 被 保存 在 string.c 的 

st_string literal buffer 这 一 static 变量 中 。 我 本 人 对 于 使 

用 static 变量 还 是 有 些 抵制 的 ， 但 是 鉴于 我 们 只 能 把 yacclex 作 为 工具 
来 使 用 ， 即 使 有 什么 想法 也 无 法 修改 〈 至 少 老 版 本 是 不 允许 修改 的 ) ， 

ee i 0 0 i (请 参考 本 节 的 

补充 知识 ) 。 


语法 处 理 器 在 编译 时 如 果 发 生 错 误 ， 需 要 显示 错误 信息 ， 因 此 错误 信息 
中 必须 包含 行 号 。 


在 crowbar.] 中 的 对 应 处 理 是 ， 每 换行 一 次 ， 行 号 都 会 进行 计数 。 有 具体 来 
说 有 以 下 三 处 : 











76: 《INITIAL>Nn {increment line number();} 


92: <COMMENT>\n { 

93: increment line number(); 

94: BEGIN INITIAL; 

95: } 

164: <STRING LITERAL STATE>\n { 
165 : crb_add _ string literal('\n'); 


166 : increment line number(); 


167: } 


这 里 进行 计数 的 行 号 保存 在 CRB_Interpreter 的 
current_line_number 中 。 


补充 知识 “静态 变量 的 许可 范围 


如 上 文 所 写 ， 在 词法 分 析 中 ， 正 在 读 入 的 字符 串 会 保存 在 string.c 的 
st_string literal_buffer 中 。 在 编译 时 ， 当 前 的 编译 器 会 保存 在 
utilc 的 st_current_interpreter 中 。 而 在 yacclex 中 ， 还 会 使 

用 yytext 等 全 局 变量 。 


使 用 如 此 多 的 静态 变量 ， 首 当 其 冲 会 遇 到 的 就 是 多 线程 问题 。 


当下 多 线程 的 程序 已 经 很 普及 了 ， 毅 态 变 量 可 以 在 多 线程 之 间 共 襄 ， 
此 多 个 线程 如 果 同 时 进行 编译 的 话 可 能 会 引发 问题 。 


不 过 一 般 来 说 ， 编 译 过 程 都 是 一 下 子 束 能 结束 的 ， 因 此 在 这 样 短 的 时 间 
内 通过 加 一 个 全 局 锁 的 方式 就 可 以 解决 问题 了 。 正 因为 有 这 样 既 简单 又 
实用 的 方法 ，crowbar 才 放心 地 允许 在 编译 过 程 中 使 用 静态 变量 。 而 静 
态 变 量 仅 在 编译 过 程 中 被 使 用 ， 一旦 程序 开始 运行 后 就 无 法 使 用 了 。 具 
体 来 说 ， 由 于 MEM 模 块 会 静态 地 保存 内 存 块 链表 ， 这 原本 就 是 以 调试 
为 目的 创建 的 链表 ， 可 以 随时 删除 ， 而 由 于 MEM 模 块 位 于 系统 最 底 
层 ， 因 此 可 以 对 MEM_malloc() 的 运行 进行 加 锁 处 理 。 


使 用 静态 变量 还 会 造成 另 一 个 问题 ， 就 是 编译 器 无 法 递归 运行 。 比 如 
crowbar 中 的 库 函 数 都 书写 在 独立 文件 中 ， 在 C 语 言 中 理论 上 只 需要 

用 #include 就 能 很 简单 地 把 功能 包含 进来 。 但 是 实际 应 用 中 就 会 发 
现 ， 使 用 #include 包括 进来 的 独立 文件 ， 在 编译 过 程 中 如 果 再 开始 一 
个 解析 器 ， 之 前 的 静态 变量 束 会 被 覆盖 。 


标准 版 的 yacclex， 由 于 使 用 了 yytext 等 全 局 变量 ， 因 此 也 无 法 支持 多 线 
程 或 使 用 递归 。 不 过 bison 有 单独 的 扩展 可 以 让 其 支持 多 线程 。™ 


* 在 后 面 写 到 的 Diksam 中 ， 具 备 与 C 语 言 的 #include 相对 应 的 功能 require ， 同 样 由 于 解析 器 
不 能 进行 递归 ， 会 在 解析 完 一 个 文件 后 ， 才 开始 解析 被 require 的 文件 。 




































































3.3.3 ”分 析 树 的 构建 


crowbar 中 yacc 的 定义 文件 为 owbar.y。 从 构成 来 说 ， 与 计算 器 版 的 
mycalc.y 没 有 什么 变化 。 


但 是 在 计算 器 中 ， 归 约 是 在 实际 进行 计算 时 才 进 行 的 ， 而 crowbar.y 则 是 
在 构建 分 析 树 时 进行 的 。 


比如 一 个 加 法 算式 〈 如 16 + a ) 会 按照 以 下 的 规则 构建 : 


crowbar.y 与 create.c 








additive expression 
《中 间 省 略 ) 
| additive _ expression ADD multiplicative _ expression 


{ 


$$ = crb_create binary expression(ADD EXPRESSION, $1, $3); 
} 





这 里 的 additive_expression 对 应 mycalc.y 中 的 expression 
， multiplicative expression 对 Yterm 。 


在 动作 中 ，crb_create _binary_expression() 被 调用 ， 其 实际 运行 
代码 在 create.c 中 。 这 个 函数 负责 常量 折合 (参考 3.3.4 节 ) ， 上 所 以 稍微 有 
些 复杂 ， 将 这 部 分 以 外 的 核心 代码 精简 一 下 ， 可 以 看 到 这 个 函数 的 主要 
逻辑 如 下 所 示 : 


Expression * 
crb_create binary expression(ExpressionType operator， 
Expression *left, Expression *right) 
{ 
Expression *exp; 
exp = crb alloc expression(operator); 


exp->u.binary expression.left = left; 
exp->u.binary_ expression.right = right; 
return exp; 





crb_alloc_expression() 将 开辟 一 个 存放 Expression 类 型 结构 体 的 
内 存 空间 ， 并 将 其 返回 。Expression 类 型 在 crowbar.h 中 的 定义 如 下 所 
小 : 


struct Expression tag { 

ExpressionType type; < 表示 表达 式 的 类 别 

int line number; 

union { < 用 联合 体 保存 不 同 种 类 对 应 的 值 
CRB_Boolean boolean value; 
int int_value; 
double double value; 
char *string value; 
char *identifier; 
AssignExpression assign expression; 
BinaryExpression binary_expression; 
Expression *minus_expression; 
FunctionCallExpression function call expression; 





这 个 结构 体 在 分 析 树 中 用 来 表示 “表达 式 ” 的 类 型 。 与 CRB_Value 一 样 ， 
用 枚 举 类 型 的 ExpressionType 表示 表达 式 的 类 型 ， 用 联合 体 保存 各 种 
类 型 对 应 的 值 。 


ExpressionType 具体 定义 如 下 : 





typedef enum { 

















BOOLEAN_EXPRESSION = 1， /* 布尔 型 常量 */ 
INT_EXPRESSION, /* 整数 型 常量 */ 
DOUBLE_EXPRESSION, /* 实数 型 常量 */ 
STRING EXPRESSION, /* 字符 串 型 常量 */ 
IDENTIFIER EXPRESSION, /* 变量 */ 
ASSIGN_ EXPRESSION, /* 赋值 表达 式 */ 
ADD_ EXPRESSION, /* 加 法 表达 式 */ 
SUB_EXPRESSION, /* 减法 表达 式 */ 
MUL_EXPRESSION, /* 乘法 表达 式 */ 
DIV_EXPRESSION, /* 除法 表达 式 */ 
MOD_EXPRESSION, /* 求 余 表 达 式 */ 
EQ_EXPRESSION， / 
NE_EXPRESSION, /* |= 水/ 

GT_ EXPRESSION, /* > */ 
GE_EXPRESSION, /* >= */ 

LT_ EXPRESSION, /# < */ 
LE_EXPRESSION, /* <= */ 
LOGICAL AND_ EXPRESSION, /* && */ 
LOGICAL OR_EXPRESSION, /* || */ 
MINUS_EXPRESSION, /* 单 目 取 负 */ 



































FUNCTION_CALL_EXPRESSION， /* 函数 调用 表达 式 */ 


NULL_EXPRESSION, /* null 表 达 式 */ 
EXPRESSION_TYPE COUNT_PLUS 1 
} ExpressionType; 





这 其 中 从 ADD_EXPRESSION 到 LOGICAL _OR_EXPRESSION ， 都 在 使 用 联 
合体 的 binary_expression 成 员 。 


binary_expression 的 类 型 是 BinaryExpression ， 其 定义 如 下 所 
不 : 
typedef struct { 


Expression *]left; 
Expression *right; 


} BinaryExpression; 





crb_create binary_expression() 最 终 返回 这 样 构建 出 的 
Expression 的 指针 ， 并 在 crowbar.y 中 将 其 赋值 给 $$ 。 


$$ = crb_create binary expression(ADD EXPRESSION, $1, $3); 





a + a + b 这 样 的 语句 ， 按 上 面 的 处 理 束 会 构建 出 如 图 3-4 的 分 析 
对 。 


图 3-4 10+a+b 的 分 析 树 


那么 ， 接 下 来 是 crb_alloc_expression() 函数 ， 这 个 函数 只 是 简单 
地 用 crb_malloc() 开辟 Expression 的 空间 ， 并 且 将 type 连同 刚 被 设 
置 的 行 号 一 起 返回 。 


crb_alloc expression(ExpressionType type) 


{ 


Expression *exp; 


exp = crb _ malloc(sizeof(Expression)); 
exp->type = type,; 
exp->line number = crb get current interpreter()->current line number; 


return exp; 





在 分 析 树 中 ， 不 单 是 表达 式 ， 语 句 (statement) 也 很 重要 。 构 建 语句 的 
思路 与 表达 式 基 本 是 一 样 的 ， 关 联 的 结构 体 定义 从 crowbar.h 中 摘录 如 


struct Statement tag { 

StatementType type 

int line_number; 

union { 
Expression *expression_s; /* 表达 式 语 句 */ 
GlobalStatement global s; /* global 语 句 */ 
IfSstatement if s; /* if 语 句 */ 
Whilestatement while s; /* While 语句 */ 
ForStatement for_s; /* for 语 句 */ 
ReturnStatement return s; /* return 语 句 */ 








随便 举 一 个 联合 体 的 例子 ， 比 如 Whilestatement 的 定义 如 下 所 示 : 


typedef struct { 
Expression *condition; /* 条 件 表达 式 */ 
Block *block; /* 可 执行 块 */ 





} WhileSstatement; 





Block 在 3.3.1 节 中 已经 出 现 过 一 次 ， 即 一 段 用 花 括号 包 于 的 代码 段 类 
型 。 


StatementType 的 一 览 表 如 下 所 示 : 


typedef enum { 
EXPRESSION STATEMENT = 1,， 
GLOBAL _ STATEMENT, 
IF_STATEMENT ， 
WHILE_STATEMENT ， 
FOR_STATEMENT， 


RETURN_STATEMENT ， 

BREAK_STATEMENT ， 

CONTINUE STATEMENT, 

STATEMENT_TYPE_COUNT_PLUS 1 
} StatementType; 





BREAK_STATEMENT 和 CONTINUE_STATEMENT 现 阶 段 都 没有 信息 需要 保 
存 〈 如 果 想 像 Java 那样 文 持 标签 或 break 语 句 的 话 就 需要 保存 了 ) ， 
此 没有 对 应 的 联合 体 成 员 。 


比如 


这 样 一 个 表达 式 ， 其 实 与 


是 同 值 的 。 诸 如 这 种 纯 常 量 构成 的 表达 式 或 部 分 表达 式 ， 在 编译 时 提前 
被 计算 出 来 的 处 理 方式 叫 作 第 量 折 有 登 〈constant folding) 。 由 于 编译 时 
这 部 分 计算 就 已 经 完成 了 ， 上 所 以 能 有 效 地 提高 运行 速度 。 


crowbar 中 也 部 分 引入 了 常量 折 靶 的 处 理 。 具 体 来 说 ， 在 进行 整数 型 与 
实数 型 相关 的 四 则 运算 或 者 单 目 取 负 时 会 进行 常量 折 晤 ”。 这 部 分 代码 
本 书 不 会 进行 详细 说 明 ， 请 参考 create.c 的 

crb_create binary_expression() 和 
crb_create minus expression().。 


























* 字符 串 的 加 法 不 会 做 折 县 处 理 。 确 实 代 码 中 有 时 候 需 要 有 长 文本 信息 ， 但 是 按 当前 版 本 的 处 
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时 方式， 连接 前 的 字符 串 是 无 法 锌 释放 的 ， 也 就 是 说 其 实 这 里 是 我 偷懒 了 。 


crowbar 中 的 和 常量 折 车 其实 可 以 归 入 所 谓 程 序 最 优化 (optimization) 的 
范畴 ， 在 语言 的 制作 阶段 考虑 最 优化 本 来 为 时 尚 早 ， 但 是 由 于 crowbar 
的 目标 是 类 似 C 的 语言 ， 这 种 优化 在 部 分 场景 中 是 必须 的 。 比 如 C 语 言 
在 一 些 特定 地 方 只 能 写 常 量 表达 式 (static 变量 的 初始 化 或 数组 的 大 
小 指定 等 ” ) ， 这 些 地 方 需要 支持 常量 折 羞 的 处 理 。 


* ISO-C99 规 范 中 ，auto 的 数组 也 可 以 不 是 常量 。 
程序 优化 是 指 通过 不 断 调 整 程 序 以 提高 代码 的 运行 速度 ， 但 是 调整 的 结 


果 到 后 是 不 是 “最 优 ” 其 实 不 好 评判 ， 因 此 有 些 人 提出 “最 优化 ”这 个 用 词 
古 不 恰当 的 。 
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3.3.5 ”错误 信息 





错误 信息 考虑 到 需要 支持 多 语言 ， 所 以 一 般 尽 可 能 避免 硬 编码 出 现在 
代码 中 ， 最 好 以 提供 外 部 文件 的 方式 实现 。 但 是 在 开始 设计 crowbar 这 
样 的 脚本 语言 时 ， 我 非常 希望 crowbar 只 通过 一 个 可 执行 文件 就 能 运 
行 。 比 如 我 想 去 别 的 地 方 做 一 些 文字 处理 工作， 那么 只 需要 把 crowbar 
的 唯一 一 个 可 执行 文件 找 入 U 盘 就 可 以 拿 去 用 了 。 


* 可 能 很 多 读者 会 认为 显示 错误 信息 只 有 英语 就 足够 了 ， 不 过 对 于 初级 用 户 来 说 ， 英 文 的 错误 信 
恩 可 能 有 点 难以 理解 吧 。 更 重要 的 理由 是 : 我 觉得 自己 的 英语 水 平 还 不 够 。 
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* 不 过 一 般 公 司 对 于 数据 的 管理 都 是 比较 严格 的 ， 可 能 没有 办 法 用 U 盘 携带 数据 吧 。 











此 crowbar 还 是 选择 将 错误 信息 硬 编码 在 error_message.c 的 源 文件 中 ， 
参看 代码 清单 3-5。 


代码 清单 3-5 error_message.c 





MessageFormat crb compile error message format[] = { 
{" dummy"}, 
{"($(token) 附 近 有 语法 错误 )"}， 
{" 错 误 的 字符 ($(bad_char))"}， 
{" 函 数 名 重复 ($(name))"}， 
{"dummy"}, 
}; 





MessageFormat crb_runtime error message format[] = { 
{" dummy"}, 
{" 找 不 到 变量 ($(name))。"}， 
{" 找 不 到 函数 ($(name))。"}， 

{" 传 递 的 参数 多 于 函数 所 要 求 的 参数 。"})， 

{ 

{ 











"传递 的 参数 少 于 函数 所 要 求 的 参数 。"}， 
"条 件 语句 类 型 必须 为 boolean 型 "}， 


}; 








通过 这 种 方式 ， 将 来 如 果 要 文 持 多 语言 的 话 ， 可 以 简单 地 通过 修改 外 部 
文件 来 实现 。 而 设置 crb_compile error _message 

与 crb_runtime_error_message 这 两 个 数组 ， 是 为 了 将 编译 时 的 错误 
信息 与 运行 时 的 错误 信息 区 分 开 来 。 这 些 数组 的 索引 ， 与 crowbar.h 中 对 
应 的 枚 举 型 的 值 是 一 致 的 。 


代码 清单 3-6 ”crowbar.h 的 错误 信息 枚 举 型 定义 


typedef enum { 
PARSE ERR = 1,， 
CHARACTER_INVALID_ERR， 
FUNCTION_MULTIPLE_DEFINE_ERR， 
COMPILE_ERROR_COUNT_PLUS 1 

} CompileErronr; 





typedef enum { 


VARIABLE_NOT_FOUND_ERR = 1， 
FUNCTION_NOT_FOUND_ERR ， 
ARGUMENT_TOO_MANY_ERR， 


RUNTIME_ERROR_COUNT_PLUS 1 
} RuntimeErronr; 





代码 清单 3-5 中 的 错误 信息 ， 包 含 了 一 个 g(token) 这 样 的 字符 串 ， 这 征 
错误 信息 中 的 可 变 部 分 。 比 如 找 不 到 一 个 名 为 hoge 的 变量 时 ， 如 采 能 
报 出 “ 找 不 到 变量 (hoge)”， 要 比 只 报 “ 找 不 到 变量 ”对 用 户 更 加 友好 。 


为 了 实现 错误 信息 中 可 以 包含 变量 ， 显 示 错 误 信 息 时 会 调用 下 面 的 函 
数 crb_runtime_error()”。 





























* 只 适用 于 运行 出 错 。 如 果 是 编译 出 错 ， 则 调用 crb_compile_error()。 








crb_runtime error(expr->line number,， /* 行 号 */ 
VARIABLE_NOT_FOUND_ERR， /* 枚 举 错误 信息 类 别 */ 
STRING_MESSAGE_ARGUMENT ，/* 可 变 部 分 的 类 型 */ 
"name"，/* 可 变 部 分 的 标识 符 */ 




















expr->u.identifier，/* 所 要 显示 的 值 */ 
MESSAGE ARGUMENT_END); 





第 一 个 参数 是 行 号 (在 create.c 中 Expression 结构 体 中 设 定 ) ， 下 一 人 
参数 是 错误 类 别 (crowbar.h 中 的 RuntimeError 枚 举 型 ) ， 之 后 的 三 个 
参数 为 一 组 ， 对 应 错误 信息 的 可 变 部 分 。STRING_MESSAGE_ARGUMENT 
代表 信息 类 型 (相当 于 printf() 中 使 用 的 %s ) ，name 即 错误 信息 中 
的 $(name) ，expr->u.identifier 则 表示 可 变 部 分 要 显示 的 字符 
串 。 由 于 可 变 部 分 可 以 有 多 个 ， 因 此 crb_runtime_error 为 一 个 变 长 
参数 ， 所 以 可 以 用 MESSAGE_ARGUMENT_END 表示 参数 输入 结束 。 


当前 版 本 无 论 是 编译 错误 还 是 运行 错误 ， 显 示 错 误 信 息 后 都 会 立即 调 
用 exit() 终止 程序 。 这 样 的 处 理 其 实 还 远 远 不 够 ， 如 果 用 于 扩展 应 用 
程序 的 话 这 样 做 更 是 致命 的 ， 因 此 应 当 参 考 9.2.1 节 加 入 异常 处 理 机 制 。 


补充 知识 “关于 crowbar 中 使 用 的 枚 举 型 定义 
比如 在 代码 清单 3-6 中 的 CompileError 类 型 ， 我 特意 将 第 一 个 元 


素 PARSE_ERR 设置 为 1， 而 最 后 一 个 元 素 引 入 了 名 
为 COMPILE_ERROR_COUNT_PLUS 1 的 可 变 元 素 。 


























typedef enum { 
PARSE_ERR = 1, < 特意 设置 为 1 
CHARACTER_INVALID_ERR， 
FUNCTION_MULTIPLE_DEFINE_ERR， 














COMPILE ERROR COUNT PLUS 1 < 可 变 元 素 
} CompileError:; 








类 似 这 样 的 处 理 方式 不 只 有 CompileError 类 型 。 比 如 用 于 显 
示 Expression 类 别 的 ExpressionType 类 型 也 采用 同样 的 构造 。 


特意 这 样 设置 的 理由 有 下 面 几 个 。 


1. 假如 瑟 记 进行 初始 化 时 ， 变 量 中 被 置 入 0 的 概率 是 非常 高 的 ， 那 么 
枚 举 类 型 如 果 从 1 开始 的 话 ， 可 以 更 早 地 发 现 异常 状态 。 


2. 有 了 COMPILE_ ERROR _COUNT_PLUS_1 这 个 可 变 元 素 ， 就 可 以 借助 
其 遍历 所 有 枚 举 元 素 ， 并 在 后 续 程 序 中 利用 这 一 特性 进行 更 丰富 的 
处 理 。 


当然 实际 使 用 时 ， 我 发 现 这 两 处 设置 似乎 也 不 是 特别 有 效 。 


男 外 在 错误 信息 中 ， 错 误 信 息 数 组 的 第 一 个 和 最 后 一 个 元 素 部 是 dummy 
这 是 为 了 防止 在 以 后 修改 时 只 4 改 了 crowbar.h 中 的 枚 举 类 型 ， 而 环 记 修 
改 error_message.c 中 的 对 应 错误 信息 ， 这 样 设置 的 话 能 在 一 定 程度 上 目 
动 检测 这 种 遗漏 (请 参考 error.c 中 的 self_check() 函数 ) 。 








MessageFormat crb_ compile error message format[] = { 
{"dummy"}, 


{"dummy"}, 





3.3.6 ”运行 execute.c 





crowbar 程 序 的 运行 是 从 CRB_interpret() 开始 的 ， 其 函数 实现 如 下 : 


void 
CRB_interpret(CRB Interpreter *interpreter) 
{ 


interpreter->execute storage = MEM open storage(0); 


crb add std fp(interpreter); 
crb execute statement list(interpreter, NULL, interpreter->statement 1i 





一 行 准备 了 运行 时 要 用 的 MEM_Storage ， 第 二 行 的 函 
数 crb_add_std_fp() 注册 了 三 个 内 部 全 局 变量 STDIN 、STDOUT 和 
STDERR ， 然 后 通过 crb_execute_ statement_list() 将 解释 器 中 保存 
的 语句 链表 按 顺 序 执行 。 


那么 我 们 就 来 看 一 看 crb_execute statement list() 函数 〈 代 码 清 
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代码 清单 3-7 crb_execute_statement_list() 


StatementResult 
crb execute statement list(CRB Interpreter *inter, LocalEnvironment *env， 
StatementList *1ist) 
{ 
StatementList *pos; 
StatementResult result; 


result.type = NORMAL STATEMENT_RESULT; 
for (pos = list; pos; pos = pos->next) { 


result = execute statement(inter, env, pos->statement); 
if (result.type != NORMAL STATEMENT_ RESULT) 
goto FUNC_END; 


} 


FUNC_END : 
return result; 





即 按照 链表 的 顺序 ， 调 用 execute_statement()。 


execute_statement() 则 会 根据 不 同 的 Statement 类 型 执行 不 同 的 处 
理 〈 代 码 清单 3-8) 。 





代码 清单 3-8 execute_statement() 





static StatementResult 
execute statement(CRB Interpreter *inter, LocalEnvironment *enyv, 
Statement *statement) 


{ 
StatementResult result; 


result.type = NORMAL_STATEMENT_RESULT ; 


switch (statement->type) { 

case EXPRESSION STATEMENT: 
result = execute expression statement(inter, env, statement); 
break; 

case GLOBAL STATEMENT: 
result = execute global statement(inter, env, statement); 
break; 


case IF_ STATEMENT: 
result = execute if statement(inter, env, statement); 
break; 

case WHILE_STATEMENT : 
result = execute while statement(inter, env, statement); 
break; 


case STATEMENT_ TYPE COUNT _ PLUS 1: /* FALLTHRU */ 
default: 
DBG panic(("bad case...%d", statement->type)); 


} 


return result; 





execute statement() 的 第 二 个 参数 需要 传递 LocalEnvironment 类 


型 的 结构 体 〈 指 向 其 的 指针 )〉 。 这 个 结构 体 保存 了 当前 运行 中 的 函数 的 





局 部 变量 ， 如 果 函 数 还 没有 运行 ， 则 传递 NULL 。 


eXxecute_statement() 内 部 采用 了 switch case 来 区 分 条 件 处 理 。 如 
果 将 其 调用 的 函数 全 部 进行 分 析 的 话 有 点 当 费 篇 幅 了 ， 这 里 以 while 语 
名 调用 的 execute while _statement() 为 代表 进行 说 明 (代码 清 单 3- 
9， 移 除了 错误 检查 等 与 核心 功能 无 关 的 代码 ) : 


代码 清单 3-9 execute_while_statement() 





static StatementResult 
execute while statement(CRB Interpreter *inter, LocalEnvironment *enyv, 
Statement *statement) 


{ 
StatementResult result; 


CRB_Value cond; 


result.type = NORMAL STATEMENT_RESULT; 
for (;;) { /* 首先 是 一 个 无 限 循环 */ 
/* 通过 条 件 语句 判别 */ 
cond = crb eval expression(inter, env, statement->u.while s.conditi 
/* 条 件 为 真 则 结束 循环 */ 
if (!cond.u.boolean value) 
break; 





















































/* 条 件 不 为 真 则 执行 内 部 语句 */ 


result = crb execute statement list(inter, env, 


statement->u.while s.block 
->statement list); 




















/* break，continue，return 的 处 理 */ 

if (result.type == RETURN STATEMENT RESULT) { 
break; 

} else if (result.type == BREAK_ STATEMENT RESULT) { 
result.type = NORMAL STATEMENT_RESULT; 
break; 


} 


return result; 





if 语句 或 while 语句 都 会 包含 一 些 内 部 的 语句 ， 这 些 内 部 语句 被 称 为 
机 套 (nest) 。 在 crowbar 中 ， 如 果 存 在 艇 套 ， 则 不 会 进行 递归 ， 而 是 转 
问 运行 和 车 套 内 的 语句 。 


事实 上 ， 实 现 上 面 的 机 制 主要 用 到 的 是 break 、continue 、return 
等 ， 从 某 种 程度 上 来 说 用 goto 实现 结构 控制 反而 非常 麻烦 。 


break 、continue 、return 等 出 现时 ， 必 须 从 递归 的 最 深 处 强制 返回 
he 


break 或 continue 的 作用 是 从 最 内 层 的 循环 中 跳出 ， 当 然 break 
或 continue 很 可 能 会 出 现在 很 多 层 髋 套 的 if 语句 中 ， 而 无 论 其 出 现在 
哪里 ， 正 在 进行 的 递归 都 必须 从 最 底层 一 次 性 返回 ， 这 是 不 会 改变 的 。 


为 了 实现 这 一 点 ， 我 们 有 一 个 “ 必 杀 技 ” 可 以 使 用 一 一 setjmp() 
/longjmp()”。 这 个 必 杀 技 还 被 应 用 到 异常 处 理 机 制 中 ， 因 此 在 crowba 
中 ， 返 回 值 与 结束 状态 会 逐步 返回 。 


* Ruby 的 设计 中 也 使 用 了 这 种 必 杀 技 。 
execute_statement() 以 及 内 部 被 调用 的 函数 群 


eXxecute_XXX_statement() ， 返 回 值 均 为 StatementResult 的 结构 
体 。StatementResult 的 定义 如 下 : 


typedef enum { 





NORMAL_STATEMENT_RESULT = 1， 

RETURN_STATEMENT_RESULT， 

BREAK_STATEMENT_RESULT ， 

CONTINUE_STATEMENT_RESULT， 

STATEMENT_RESULT_TYPE_COUNT_PLUS 1 
} StatementResultType; 


typedef struct { 
StatementResultType type; 
union { 
CRB_Value return value; 
} uy; 
} StatementResult; 





通常 ，type 会 返回 一 个 装 入 NORMAL_STATEMENT_RESULT 的 
StatementResult ， 而 当 执 行 return 、break 、continue 时 ， 则 分 
别 在 RETURN_STATEMENT_RESULT 、BREAK_STATEMENT_RESULT 
、CONTINUE_STATEMENT_RESULT 北 入 对 应 的 StatementResult 并 返 
回 。 此 外 ， 在 代码 清单 3-9 的 execute_while_statement() 等 中 会 根 
据 执 行 语句 的 返回 值 不 同 而 所 有 不 同 ， 如 果 
Ai 或 RETURN_STATEMENT_RESULT 则 会 中 
断 循 环 ， 而 如 果 是 continue 的 话 ， 只 会 中 断 

crb_execute_ statement list() 中 的 运行 。 


如 有 果 是 return ， 那 么 不 只 要 中 断 函 数 的 运行 ， 还 要 携带 其 返回 值 返 
回 ， 此 时 会 将 返回 值 放 入 StatementResult 的 return_value 中 。 


3.3.7 ”表达 式 评估 
表达 式 评 估 在 eval.c 中 进行 。 
表达 式 评估 ， ea 通过 对 分 析 结 果 进 


行 运算 来 实现 的 。 其 运算 结果 会 装 入 CRB_Value 结构 体 中 并 返回 。 关 于 
CRB_Value 的 定义 请 参考 3.3.8 市 。 


eval.c 








语句 的 运行 是 通过 execute enn) 中 的 switch case 判断 分 支 
条 件 来 实现 的 ， 而 表达 式 评估 则 是 通过 eval_expression() 来 执行 的 
《代码 清单 3-10) 。 


代码 清单 3-10 eval_expression() 





static CRB Value 
eval_expression(CRB_Interpreter *inter, LocalEnvironment *env, 
Expression *expr) 


{ 
CRB Value v; 


switch (expr->type) { 
case BOOLEAN EXPRESSION: 








/* 布尔 型 变量 */ 









































v = eval boolean expression(expr->u.boolean value); 
break; 
case INT_EXPRESSION: ”/* 整数 型 变量 */ 
v = eval int expression(expr->u.int value); 
break; 
case DOUBLE_EXPRESSION: /* 实数 型 变量 */ 
v = eval double expression(expr->u.double value); 
break; 
case STRING EXPRESSION: /* 字符 串 变 量 */ 
v = eval _ string expression(inter, expr->u.string value); 
break; 
case IDENTIFIER EXPRESSION: /+* 变量 */ 
v = eval identifier expression(inter, env, expr); 
break; 
case ASSIGN_ EXPRESSION: /* 赋值 表达 式 */ 
v = eval assign expression(inter, env, 
expr->u.assign expression.variable, 
expr->u.assign_ expression.operand); 
break; 
/* 大 部 分 二 元 运算 符 都 整合 在 eval_binary_expression() 中 */ 
case ADD_EXPRESSION : /* FALLTHRU */ 
case SUB_ EXPRESSION: /* FALLTHRU */ 
case MUL_ EXPRESSION: /* FALLTHRU */ 
case DIV_ EXPRESSION: /* FALLTHRU */ 
case MOD _ EXPRESSION: /* FALLTHRU */ 
case EQ EXPRESSION: /* FALLTHRU */ 
case NE_ EXPRESSION: /* FALLTHRU */ 
case GT_ EXPRESSION: /* FALLTHRU */ 
case GE EXPRESSION: /* FALLTHRU */ 
case LT_ EXPRESSION: /* FALLTHRU */ 
case LE EXPRESSION: 

v = crb eval binary_ expression(inter, env, 


expr->type, 
expr->u.binary_expression.1left, 
expr->u.binary_expression.right); 
break; 
/* 人 逻辑 与 ,逻辑 或 */ 
case LOGICAL AND EXPRESSION:/* FALLTHRU */ 














case LOGICAL_OR_EXPRESSION : 
v = eval logical and or expression(inter, env, expr->type, 
expr->u.binary_ expression.1left, 


expr->u.binary_expression.right) 
break; 


case MINUS_EXPRESSION: /* 单 目 取 负 运算 符 */ 
v = crb _ eval minus expression(inter, env, expr->u.minus expression) 
break; 
case FUNCTION CALL EXPRESSION: /* 调用 函数 */ 
v = eval function call expression(inter, env, expr); 
break; 
case NULL EXPRESSION: /* 常数 null */ 
v = eval null expression(); 








break; 
case EXPRESSION TYPE COUNT_ PLUS 1: /* FALLTHRU */ 
default: 

DBG_ panic(("bad case. type..%d\n", expr->type)); 
} 
return v; 





比如 Expression 结构 体 的 type 是 INT_EXPRESSION (整数 的 常数 ) 时 
会 调用 eval_int_expression() ， 其 实现 如 下 所 示 。 最 后 
在 CRB_Value 结构 体 中 装 入 值 并 返回 。 


static CRB Value 
eval int expression(int int _ value) 


{ 





CRB Value v; 
VvV.type = CRB_INT VALUE; 


VvV.U.int value = int value; 
return v; 





再 比如 分 析 树 的 加 法 节点 (ADD_EXPRESSION ) 对 于 其 左右 项 目 会 分 别 


调用 eval_expression() ， 然 后 对 其 值 进行 加 法 运算 ， 最 后 装 
入 CRB Value 并 返回 。 








上 面 看 起 来 只 有 很 简单 的 一 句 话 ， 其 实 对 于 加 法 运算 来 说 ， 左 右 项 目的 
组 合 有 以 下 几 种 情况 : 


1. 左边 是 整数 ， 右 边 也 是 整数 〈 整 数 相 加 ， 返 回 整数 ) 

2. 左边 是 实数 ， 石 边 也 是 实数 实数 相 加 ， 返 回 实数 ) 

3. 左边 是 整数 ， 石 边 是 实数 左边 转换 为 实数 ， 最 后 返回 实数 ) 
4. 左边 是 实数 ， 右 边 是 整数 右边 转换 为 实数 ， 最 后 返回 实数 ) 
5. 左边 是 字符 串 ， 右 边 也 是 字符 串 〈 人 返回 连接 后 的 字符 串 ) 


6. 左边 是 字符 串 ， 右 边 是 整数 《右边 转换 为 字符 串 ， 返 回 连接 后 的 
字符 串 ) 
7. 左边 是 字符 串 ， 右 边 是 实数 〈 右 边 转换 为 字符 串 ， 返 回 连接 后 的 


> 太太 


字符 串 ) 


8. 左边 是 字符 串 ， 右 边 是 布尔 型 〈 右 边 转换 为 内 容 是 true 或 false 
的 字符 串 ， 返 回 连接 后 的 字符 串 ) 


9. 左边 是 字符 串 ， 右 边 是 null 〈 右 边 转换 为 内 容 是 nul1l 的 字符 串 ， 
返回 连接 后 的 字符 串 ) 


对 于 1~4 项 来 说 ， 不 只 是 加 法 ， 减 法 和 乘法 也 都 必须 进行 这 样 的 类 型 转 
换 "“， 因 此 单独 将 评估 加 法 表达 式 的 函数 独立 出 来 并 不 是 好 的 处 理 方 
式 。crowbar 使 用 eval_binary_expression() 函数 对 所 有 的 二 元 运算 
符 进 行 评估 《代码 清单 3-11) ， 实 际 上 这 个 函数 中 已 经 将 同 为 整数 、 同 
为 实数 的 运算 单独 划分 为 函数 处 理 了 ， 但 代码 整体 还 是 很 长 (虽然 有 点 
长 不 过 并 不 难 ， 请 读者 尝试 阅读 一 下 ) 。 这 其 中 调用 的 子 函 

数 eval_binary_int() 请 参考 代码 清单 3-12。 


* 在 C 语 言 中 做 除法 运算 ， 用 整数 除 以 整数 商 仍然 为 整数 。 而 对 于 无 类 型 语言 来 说 ， 这 种 处 理 方 

式 似乎 不 够 好 〈crowbar 中 商 也 为 整数 ) 。 对 于 函数 的 参数 来 说 ， 由 于 没有 变量 类 型 检查 ， 因 此 

如 果 疝 一 个 入 口 参数 应 为 实数 的 函数 传 入 整数 值 ，Debug 时 肯定 会 非常 困难 ， 并 且 容 易 产生 
[3] 
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代码 清单 3-11 eval_binary_expression() 


CRB_Value 
crb_eval binary_ expression(CRB_Interpreter *inter, LocalEnvironment *enyv, 
ExpressionType operator, 


Expression *left, Expression *right) 


CRB Value left val; 
CRB_Value right_val; 
CRB_Value result; 


left val = eval expression(inter, env, left); 
right val = eval expression(inter, env, right); 


if (left val.type == CRB_INT_ VALUE 
&& right val.type == CRB_ INT VALUE) { 
eval binary_ int(inter, operator, 
left val.u.int value, right val.u.int value, 
&result, left->line number); 
} else if (left val.type == CRB DOUBLE VALUE 
&& right val.type == CRB DOUBLE VALUE) { 
eval_ binary_ double(inter, operator, 
left val.u.double value, right val.u.double valu 
&result, left->line number); 
} else if (left val.type == CRB_INT_ VALUE 
&& right val.type == CRB DOUBLE VALUE) { 
left val.u.double value = left val.u.int value; 
eval_ binary _ double(inter, operator, 
left val.u.double value, right val.u.double valu 
&result, left->line number); 
} else if (left val.type == CRB DOUBLE VALUE 
&& right val.type == CRB_ INT VALUE) { 
right val.u.double value = right val.u.int value; 
eval binary_ double(inter, operator, 
left val.u.double value, right val.u.double valu 
&result, left->line number); 
} else if (left val.type == CRB_ BOOLEAN VALUE 
&& right val.type == CRB _ BOOLEAN VALUE) { 
result.type = CRB_ BOOLEAN VALUE; 
result.u.boolean value 
= eval binary_ boolean(inter, operator, 
left val.u.boolean value, 
right val.u.boolean value, 
left->line number); 
} else if (left val.type == CRB_STRING VALUE 
&& operator == ADD EXPRESSION) { 
char buf[LINE BUF SIZE]; 
CRB_String *right_str; 


if (right val.type == CRB_ INT VALUE) { 

sprintf(buf, "%d", right val.u.int value); 

right str = crb_create crowbar string(inter, MEM strdup(buf)); 
} else if (right val.type == CRB DOUBLE VALUE) { 


sprintf(buf, "%f", right val.u.double value) ; 
right_str = crb_create crowbar string(inter, MEM strdup(buf)); 
} else if (right val.type == CRB _ BOOLEAN VALUE) { 
if (right val.u.boolean value) { 
right str = crb_create crowbar string(inter, 
MEM_ strdup("true")); 
} else { 
right str = crb_create crowbar string(inter, 
MEM_ strdup("false")); 
} 
} else if (right val.type == CRB_ STRING VALUE) { 
right_str = right val.u.string value; 
} else if (right val.type == CRB NATIVE POINTER VALUE) { 
sprintf(buf, "(%s:%p)", 
right val.u.native pointer.info->name, 
right val.u.native pointer.pointer); 
right_str = crb_create crowbar string(inter, MEM strdup(buf)); 
} else if (right val.type == CRB NULL VALUE) { 
right_ str = crb_create crowbar string(inter, MEM strdup("null") 
} 
result.type = CRB_STRING VALUE; 
result.u.string value = chain string(inter, 
left val.u.string value, 
right_str); 
} else if (left val.type == CRB_STRING VALUE 
&& right val.type == CRB_ STRING VALUE) { 
result.type = CRB_ BOOLEAN VALUE; 
result.u.boolean value 
= eval compare string(operator, &left val, &right _ val, 
left->line number); 
} else if (left val.type == CRB_ NULL VALUE 
|| right_val.type == CRB_NULL VALUE) { 
result.type = CRB_ BOOLEAN VALUE; 
result.u.boolean value 
= eval binary null(inter, operator, &left val, &right val, 
left->line number); 
} else { 
char *op_ str = crb_ get operator string(operator); 
crb_runtime error(left->line number, BAD OPERAND TYPE_ERR, 
STRING MESSAGE ARGUMENT, "operator", op_str., 
MESSAGE_ARGUMENT_END) ; 


} 


return result; 





代码 清单 3-12 eval_binary_int() 





static void 

eval binary_int(CRB_Interpreter *inter, ExpressionType operator， 
int left, int right, 
CRB_Value *result, int line number) 


if (dkc is math operator(operator)) { 
result->type = CRB_INT_ VALUE; 

} else if (dkc is compare operator(operator)) { 
result->type = CRB_ BOOLEAN VALUE; 

} else { 
DBG panic(("operator..%d\n", operator)); 


} 

switch (operator) { 

case BOOLEAN EXPRESSION: /* FALLTHRU */ 
case INT_ EXPRESSION: /* FALLTHRU */ 
case DOUBLE EXPRESSION: /* FALLTHRU */ 
case STRING EXPRESSION: /* FALLTHRU */ 


case IDENTIFIER EXPRESSION: /* FALLTHRU */ 

case ASSIGN EXPRESSION: 
DBG panic(("bad case...%d", operator)); 
break; 

case ADD _ EXPRESSION: 
result->u.int value = left + right; 
break; 

case SUB_ EXPRESSION: 
result->u.int value = left - right; 
break; 

case MUL_ EXPRESSION: 
result->u.int value = left * right; 
break; 

case DIV_ EXPRESSION: 
result->u.int value = left / right; 
break; 

case MOD_ EXPRESSION: 
result->u.int value = left % right; 
break; 

case LOGICAL AND EXPRESSION: /* FALLTHRU */ 

case LOGICAL OR_ EXPRESSION: 
DBG panic(("bad case...%d", operator)); 
break; 

case EQ EXPRESSION: 
result->u.boolean value = left == right; 
break; 

case NE EXPRESSION: 


result->u.boolean value = left != right; 
break ; 

case GT_EXPRESSION : 
result->u.boolean value = left > right; 
break; 

case GE _ EXPRESSION: 
result->u.boolean value = left >= right; 
break; 

case LT_ EXPRESSION: 
result->u.boolean value = left «< right; 
break; 

case LE EXPRESSION: 
result->u.boolean value = left <= right; 


break; 
case MINUS EXPRESSION: /* FALLTHRU */ 
case FUNCTION CALL EXPRESSION: /* FALLTHRU */ 
case NULL EXPRESSION: /* FALLTHRU */ 
case EXPRESSION TYPE COUNT _ PLUS 1: /* FALLTHRU */ 
default: 


DBG panic(("bad case...%d", operator)); 
} 





类 似 这 样 ， 在 运行 表达 式 评 信和 时， a a 这 





也 就 是 crowbar 这 样 的 无 类 型 语言 运行 速度 慢 的 原因 之 一 ” 
* 对 编译 器 进行 优化 的 话 ， 其 实 可 以 在 编译 阶段 对 值 的 类 型 进行 判定 。 


在 评估 其 他 表达 式 时 ， 比 较 重要 的 是 调用 函数 。 调 用 函数 时 会 执 
行 eval_function call expression() (代码 清单 3-13) 











_ 代码 清单 3-13 eval_function_call_expression() _ 





static CRB Value 
eval function call expression(CRB_ Interpreter *inter, LocalEnvironment *env 
Expression *expr) 


{ 
CRB_Value value; 


FunctionDefinition *func; 
char *identifier = expr->u.function call expression.identifier; 


func = crb_ search function(identifier); 
if (func == NULL) { 


crb_runtime_ error(expr->line number, FUNCTION NOT_FOUND_ERR, 
STRING MESSAGE ARGUMENT, "name", identifier, 
MESSAGE ARGUMENT_END); 
} 
switch (func->type) { 
case CROWBAR_ FUNCTION DEFINITION: 
value = call crowbar function(inter, env, expr, func); 
break; 
case NATIVE FUNCTION DEFINITION: 
value = call native function(inter, env, expr, func->u.native f.pro 
break; 
default: 
DBG_panic(("bad case..%d\n", func->type)); 
} 


return value; 





这 个 函数 本 身 只 负责 将 crowbar 中 的 函数 和 C 语 言 中 的 函数 (内 置 函 数 ) 
按 条 件 区 分 处 理 。 


如 果 是 crowbar 中 的 函数 ， 会 调用 cal1_crowbar_ function() 《代码 清 
单 3-14 ) 


代码 清单 3-14 call_crowbar_function() 





static CRB Value 
call crowbar function(CRB_ Interpreter *inter, LocalEnvironment *env, 
Expression *expr, FunctionDefinition *func) 


{ 
CRB Value value; 
StatementResult result; 
ArgumentList *arg_p; 
ParameterList *param _p; 
LocalEnvironment *]ocal_env; 

















/* 开辟 空间 用 于 存放 被 调用 函数 的 局 部 变量 */ 


local env = alloc local environment(); 



































/* 对 参数 进行 评估 ， 并 存放 到 局 部 变量 中 
arg_p 指 向 函数 调用 的 实 参 链 表 
param_p 指 问 浮 数 定义 的 形 参 链表 */ 
for (arg p = expr->u.function call expression.argument, 
param p = func->u.crowbar f.parameter; 





























ar8_pP， 
argp= arg p->next, param p = param p->next) { 
CRB_Value arg val; 


if (param p == NULL) { /* param_p 被 用 尽 : 说 明 实 参 过 多 */ 
crb_runtime error(expr->line number, ARGUMENT_ TOO MANY_ERR, 
MESSAGE ARGUMENT_END); 





} 


arg_ val = eval expression(inter, env, arg p->expression); 
crb_add local variable(local env, param p->name, &arg_val); 


} 
if (param_p) { /* param_p 剩 余 : 说 明 实 参数 量 不 够 */ 
crb_runtime error(expr->line number, ARGUMENT_ TOO_ FEW_ERR, 
MESSAGE ARGUMENT_END); 





} 

/* 运行 函数 内 部 语句 */ 

result = crb execute statement list(inter, local env, 
func->u.crowbar_f.block 
->statement list); 











/* 如 果 return 语 句 已 经 运行 ， 则 返回 其 返回 值 */ 

if (result.type == RETURN STATEMENT RESULT) { 
value = result.u.return value; 

} else { 
value.type = CRB_NULL VALUE; 








} 


dispose local environment(inter, local env); 


return value; 





crowbar 与 C 语 言 一 样 ， 是 局 部 变量 的 生命 周期 ， 在 函数 被 销毁 时 截止 











〈 局 部 变量 生成 的 时 机 与 C 语 言 不 同 ， 和 是 在 变量 被 赋值 时 生成 的 ) 。 
此 在 一 个 函数 开始 时 ， 需 要 为 这 个 函数 准备 一 个 运行 环境 ， 随 着 赋值 开 
台 注 册 新 生成 的 局 部 变量 ， 同 时 在 函数 结束 后 将 其 运行 环境 一 同 废弃 。 
按照 这 个 思路 ， 我 们 为 函数 的 运行 环境 准备 了 LocalEnvironment 结构 
体 。 


LocalEnvironment 结构 体 的 定义 如 下 : 














typedef struct { 
Variable *variable; /* 保存 局 部 变量 的 链表 */ 
GlobalVariableRef  ”*global variable; /* 根据 global 语 句 生 成 的 引用 全 局 变量 




















} LocalEnvironment; 


,== 


Variable 是 为 了 保存 全 局 变量 而 使 用 的 结构 体 (参考 3.3.1 市 )。 该 结 
构 体 是 通过 链表 构建 的 ， 链 表 内 保存 了 函数 内 的 局 部 变量 。 


函数 的 参数 中 包含 了 所 有 函数 内 要 用 到 的 局 部 变量 ， 通 过 调 
用 call_crowbar_function() 中 评估 的 crb_add_local_variable() 
函数 将 变量 装 入 LocalEnvironment 。 


全 局 变量 在 函数 内 被 引用 时 ，crowbar 中 需要 使 用 global 语句 进行 声明 

(参考 3.1.4 节 ) 。LocalEnvironment 结构 体 的 global_variable 成 
员 中 保存 了 global 语句 声明 的 指 问 全 局 变量 的 引用 链表 ， 其 类 型 
GlobalVariableRef 的 定义 如 下 所 示 : 











typedef struct GlobalVariableRef tag { 
Variable *variable; /* 指向 全 局 变量 








struct GlobalVariableRef _ tag *next 
} GlobalVariableRef; 








GlobalVariableRef 结构 体 在 global 语句 运行 时 生成 ， 同 时 被 追加 
到 LocalEnvironment 结构 体 中 。 


3.3.8” 值 一 一 CRB_Value 


执行 表达 式 评估 的 函数 eval XXX_expression() ， 它 的 返回 值 类 型 
为 CRB_Value 。CRB_Value 类 型 的 定义 如 下 : 





/* 类 型 的 类 别 枚 举 */ 
typedef enum { 





CRB_BOOLEAN VALUE = 1， /* 布尔 型 */ 
CRB_INT_VALUE, /* 整数 型 */ 
CRB_DOUBLE VALUE, /* 实数 型 */ 
CRB_STRING VALUE, /* 字符 串 型 */ 
CRB_NATIVE_POINTER VALUE,， /* 原生 指针 型 */ 
CRB_NULL VALUE /* NULL */ 


} CRB_ValueType; 


typedef struct { 
CRB_ValueType type; /* 这 个 成 员 用 于 区 别 类 型 */ 
union { /* 实际 的 值 保存 在 联合 体 中 */ 


CRB_Boolean boolean value; 


int int_value; 

double double value; 
CRB_String *string value; 
CRB_NativePointer native pointer; 


} uu; 
} CRB_Value; 





CRB_Value 结构 体 用 于 保存 crowbar 中 的 每 个 值 ， 并 用 枚 举 型 区 别 值 的 


类 型 ， 实 际 的 值 最 终 保存 在 联合 体 中 。 

对 于 无 类 型 语 言 处 理 器 来 说 ， 通 常 都 需要 像 这 样 在 值 中 保存 值 本 号 的 类 
型 。 

3.3.9 ”原生 指针 型 


原生 指针 型 的 值 ， 通 过 CRB_Value 结构 体 中 的 联合 体 成 
员 CRB_NativePointer 类 型 体现 出 来 ， 其 定义 如 下 所 示 : 
typedef struct { 


CRB_NativePointerInfo *info; 
void *pointer; 








} CRB_NativePointer; 





pointer 成 员 是 指向 一 些 内 部 对 象 的 指针 。 比 如 可 以 用 原生 指针 型 来 做 
文件 指针 ， 此 时 指针 实际 会 指向 FILE* 类 型 。 为 了 可 以 容纳 任何 类 型 的 
指针 ， 这 里 特意 设置 为 void* 。 


另 一 个 成 员 info 保存 了 原生 指针 型 的 信息 ， 因 此 原生 指针 型 本 身 就 可 
以 获得 自己 的 类 型 。 如 果 没 有 info 成 员 只 保存 void* 的 话 ， 当 错误 的 
类 型 传递 给 原生 指针 型 时 ， 内 置 函数 将 失去 类 型 检查 的 方法 ， 引 起 程序 
朋 溃 。 作 为 crowbar 的 解释 器 ， 如 果 还 会 被 crowbar 程 序 的 BUG 弄 裔 溃 就 
有 点 说 不 过 去 了 。 


info 成 员 的 类 型 CRB_NativePointerInfo 的 定义 如 下 所 示 : 


typedef struct { 
char *name; 








} CRB_NativePointerInfo 


这 里 的 name 成 员 中 ， 如 果 原 生 指 针 为 文件 指针 时 ， 成 员 值 
为 crowbar .lang.file 的 字符 串 。 


虽然 经 过 上 面 的 处 理 ， 可 以 对 原生 指针 型 进行 类 型 检查 ， 但 这 还 不 算是 
万 全 之 策 。 比 如 为 FILE* 类 型 时 ， 一 个 地 方 用 fclose() 关闭 了 文件 指 
针 ， 可 能 还 会 在 另 一 个 地 方 被 使 用 。 为 了 规避 这 种 情况 ， 原 生 指 针 型 不 
应 该 直接 指向 FILE* ， 而 是 需要 经 过 一 个 第 三 方 对 象 。 不 过 当前 版 本 的 
crowbar 对 第 三 方 对 象 的 释放 处 理 仍 锡 存在 问 题 。 之 后 的 版 本 会 引入 
mark-sweep GC， 届 时 这 个 问题 会 一 并 解决， 请 参考 4.4.5 节 。 








3.3.10 ”变量 
我 们 先后 提 到 了 局 部 变量 与 全 局 变量 ， 那 么 接 下 来 ， 我 再 对 变量 做 一 些 








变量 名 在 表达 式 中 出 现时 ， 通 过 eval_expression() (参考 代码 清单 
3-10) te 《代码 清单 3-15) 。 


代码 清单 3-15 eval_identifier_expression() 





static CRB Value 
eval identifier expression(CRB_ Interpreter *inter, 
LocalEnvironment *env, Expression *expr) 


{ 
CRB Value v; 


Variable *vyp; 




















/* 首先 查找 局 部 变量 */ 
vp = crb_ search local variable(env, expr->u.identifier); 
if (vp != NULL) { 
Vv = vp->value; 
} else { 
/* 如 果 没 有 找到 ， 则 通过 CRB_Interpreter 或 LocalEvironment 连 接 
GlobalVariableRef， 在 其 中 查找 全 局 变量 */ 
vp = search global variable from env(inter, env, expr->u.identifier 
if (vp != NULL) { 
Vv = vp->value; 
} else { 
/* 仍然 没有 找到 则 报错 */ 






































crb_runtime error(expr->line number, VARIABLE NOT_ FOUND_ERR, 
STRING MESSAGE ARGUMENT, 
"name", expr->u.identifier, 
MESSAGE ARGUMENT_END); 
} 
} 
refer if_string(&v); /* 这 里 下 文 会 详 述 * 





return v; 





crb_search_local variable() 会 从 LocalEnvironment 中 查找 局 部 
变量 。 另 外 ，crb_search global variable() 的 第 二 个 参 





数 LocalEnvironment 为 空 的 话 〈 即 在 顶层 结构 中 ) ， 会 从 
CRB_Interpreter 中 查找 。 如 果 两 者 都 没有 找到 ， 则 从 第 二 个 
数 LocalEnvironment 连接 的 GlobalVariableRef 0 gs 





变量 赋值 时 的 处 理 通 过 eval_assign_expression() 进行 (代码 清单 
3-16) 


代码 清单 3-16 eval_assign_expression() 





static CRB Value 
eval_assign_expression(CRB_Interpreter *inter, LocalEnvironment *env， 


char *identifier, Expression *expression) 


{ 
CRB Value v; 


Variable *]eft; 





/* 首先 评估 右边 */ 


v = eval expression(inter, env, expression); 














/* 查找 局 部 变量 */ 
left = crb search local variable(env, identifier); 
if (left == NULL) { 

/* 没有 找到 则 查找 全 局 变量 */ 


left = search global variable from env(inter, env, identifier); 























} 

if (left != NULL) { /* 找到 变量 */ 
release_ if string(&left->value); /* 本 行 后 文 会 详 述 * 
left->value = v; /* 在 这 里 赋值 */ 
refer_if_string(&v ) ; /* 本 行 后 文 会 详 述 * 

} else {/* 因为 没有 变量 ， 所 以 新 生成 */ 

















if (env != NULL) { 
/* 函数 内 注册 局 部 变量 */ 
crb add_ local variable(env, identifier, &vV); 
} else { 
/* 函数 外 注册 全 局 变量 */ 
CRB_add global variable(inter, identifier, &v); 

















} 
refer _if_string(&v); /* 本 行 后 文 详 述 */ 
} 


return v; 





赋值 处 理 的 流程 已 经 写 入 注释 ， 其 中 后 文 详 述 的 部 分 会 在 之 后 的 革 市 中 
说 明 。 


当前 的 语法 规则 中 ， 赋 值 表 达 式 的 左边 必须 保证 为 变量 名 。 如 有 宁 之 后 可 





以 使 用 数组 等 新 语法 元 素 ， 可 能 会 有 下 面 这 样 的 赋值 : 


a[b[func()]] = 16; 


左边 可 能 为 非常 复杂 的 表达 式 ， 因 此 还 需要 进一步 考虑 。 
3.3.11 字符 串 与 垃圾 回收 机 制 
如 上 文 所 写 ， 字 符 串 类 型 通过 + 连接 的 同时 ， 需 要 配合 某 种 垃圾 回收 机 
制 (garbage collector，GC) 。 当 前 版 本 的 crowbar 是 通过 引用 计数 这 种 
原始 的 垃圾 回收 机 制 实现 的 。 


引用 计数 ， 即 通过 省 理 指 向 某 些 对 象 〈( 这 里 是 字符 串 ) 的 指针 数量 ， 在 
计数 为 零 时 将 其 释放 的 回收 机 制 。 


crowbar 的 字符 串 保存 在 CRB_String 结构 体 中 。 





string_pool.c 





typedef struct CRB String tag { 
int ref_count; /* 引用 计数 */ 
char *string; ”/* 字符 串 本 身 */ 
CRB_Boolean is _1Literal; /* 是 否 为 源 文本 */ 
CRB_String; 











| 
这 个 结构 体 的 string 最 终 指向 存放 字符 串 的 区 域 。 
CRB_String 会 在 下 列 的 时 机 中 生成 ， 生 成 时 引用 计数 被 置 为 1。 

1. 字符 串 源 文本 被 评估 时 。 

2. 通过 + 运算 符 生 成 新 的 字符 串 时 。 

3. 通过 + 运算 符 将 整数 型 或 实数 型 转换 为 字符 串 类 型 时 。 

4. 通过 fget() 函数 读 入 文件 时 。 
引用 计数 为 零 时 回收 。 此 时 字符 串 本 喘 《〈 即 string 成 员 的 指 问 ) 一 般 
来 说 也 需要 被 释放 ， 但 如 果 字 符 串 为 源 文本 〈literal， 即 被 "" 包 囊 的 出 
现在 crowbar 代 码 中 的 字符 串 〉 则 不 释放 。 源 文本 不 是 通过 
MEM_malloc() 而 是 通过 MEM_storage_malloc() 
在 interpreter_storage 中 开辟 的 。 区 别 字 符 串 是 否 为 源 文本 ， 通 过 
其 成 员 is_literal 即 可 ， 也 就 是 说 ， 字 符 串 源 文本 所 对 应 的 
CRB_String ， 生 成 于 赋值 表达 式 的 字符 串 源 文本 被 评估 时 ， 但 是 其 指 
回 的 字符 串 本 号 ， 还 会 在 分 析 树 构建 时 被 重复 使 用 。 
引用 CRB_String 的 指针 会 存在 于 以 下 几 处 地 方 : 

1. 局 部 变量 

2. 全 局 变量 

3. 函数 的 参数 

4. eval.c 中 的 局 部 变量 、 参 数 、 返 回 值 等 ，eval.c 运 行 时 的 C 栈 


那么 只 需要 在 这 些 指针 被 引用 时 将 引用 计数 自 增 ， 引 用 解除 时 将 引用 计 
数 自 减 即 可 。 


因此 ， 在 程序 中 需要 在 以 下 的 时 机 对 引用 计数 进行 自 增 处 理 (条目 编号 
与 上 文 CRB_String 生成 的 编号 一 一 对 应 ) 。 

















1. 局 部 变量 被 赋值 为 字符 串 时 。 
2. 全 局 变量 被 赋值 为 字符 串 时 。 


3. 函数 的 参数 被 赋值 为 字符 串 时 。 这 里 有 个 例外 ， 如 果 入 口 参数 为 
实 参 上 时， 其 表达 式 评 估 结 束 时 会 伴随 一 次 自 减 ， 会 与 本 应 进行 的 
计数 目 增 两 相抵 消 。 


4. 字符 串 的 变量 被 评估 时 。 除 此 之 外 ， 当 字符 串 出 现在 表达 式 中 
时 ， 会 新 生成 CRB_String 。 


而 程序 中 还 需要 在 以 下 的 时 机 对 引用 计数 进行 目 减 处 理 。 


1. en 以 及 退出 函数 ， 局 部 变量 被 释 
放 时 。 


2. 存放 字符 串 的 全 局 变量 被 复写 时 ， 以 及 程序 运行 完毕 ， 全 局 变量 
被 释放 时 。 


3. 从 内 置 函 数 退出 ， 释 放 入 口 参 数 时 (如 果 是 crowbar 函 数 ， 入 口 
参数 是 作为 局 部 变量 处 理 的 ， 此 时 的 处 理 参考 上 面 的 条 件 1) 。 


4. 返回 字符 串 的 表达 式 会 对 其 进行 表达 式 / 语 名 评估， 评估 处 理 结 
束 时 。 通 过 + 运算 符 对 字符 串 进 行 连接 时 。 通 过 比较 运算 符 比较 
字符 串 后 ， 两 边 的 字符 串 需 要 释放 时 。 


在 实际 处 理 中 ， 引 用 计数 的 自 增 通过 refer_if_string() 函数 实现 ， 
其 自 减 则 通过 release if_string() 函数 (类 似 这 种 函数 名 中 

有 if_string 的 函数 ， 仅 限于 对 象 为 字符 串 时 才 会 进行 处 理 ) 实现 。 参 
考 代 码 清单 3-16 可 以 明显 看 到 : 


。 当 变量 被 复写 时 ， 原 来 变量 中 字符 串 的 引用 计数 会 自 减 ; 
。 当 变量 被 赋值 为 字符 申 时 ， 该 字符 串 的 引用 计数 会 自 增 ， 


再 举 一 个 复杂 一 点 的 例子 ， 比 如 有 如 下 语句 时 hoge() 函数 的 返回 值 
为 字符 串 类 型 ) : 


























hoge("piyo"); 





首先 ， 在 评估 piyo 时 生成 CRB_String ， 引 用 计数 被 置 为 1。 将 其 传递 
给 函数 时 ， 由 于 入 口 参数 为 实 参 ， 所 以 会 与 本 应 进行 的 计数 上 自 增 相抵 
消 ， 引 用 计数 仍然 保持 为 1 不 变 。 赋 值 给 c 后 计数 为 2， 赋 值 给 b 后 计数 
为 3， 最 后 赋值 给 a 后 计数 为 4。 同 时 ， 由 于 对 表达 式 语 句 的 评估 结束 ， 
又 会 进行 一 次 自 减 ， 所 以 计数 为 3。 通 过 a 、b 、c 3 个 变量 的 引用 ， 应 
用 计数 最 终 为 3。 


en 
循环 引用 。 


循环 引用 如 图 3-5 所 示 ， 即 几 个 对 象 之 间 相互 进行 引用 。 








图 3-5 ”循环 引用 


这 种 状态 下 ， 所 有 对 象 的 引用 计数 均 为 1， 因 此 通过 引用 计数 的 方式 进 
行 垃圾 回收 显然 是 行 不 通 的 。 其 实 ， 如 果 能 控制 局 部 变量 和 全 局 变量 令 
其 无 法 引用 的 话 ， 这 种 循环 引用 本 来 是 不 应 该 出 现 的 。 也 就 是 说 ， 以 引 
用 计数 方式 进行 垃圾 回收 时 ， 循 环 引 用 会 引起 内 存 泄漏 。 


当前 的 crowbar 中 ， 垃 圾 回收 的 对 象 只 有 字符 串 一 种 ， 而 字符 串 是 无 法 
引用 其 他 对 象 的 ， 所 以 还 不 存在 循环 引用 的 问题 。 但 是 当下 几乎 所 有 的 
实用 编程 语言 ， 都 可 以 用 一 个 对 象 保存 指 疝 为 一 个 对 象 的 引用 ， 因 此 如 
人 
Bs 











3.3.12 ”编译 与 运行 





如 1.6.2 节 所 写 ， 本 书 中 所 涉及 的 代码 都 可 以 在 以 下 URL 下 载 : 


http://avnpc.com/pages/devlang#download 


人 进入 该 文件 夹 并 运行 make 即 可 生成 执行 文 








*make 是 UNIX 下 经 典 的 编译 /自动 化 构建 工具 ， 而 在 集成 开发 环境 中 ， 很 多 IDE 都 可 以 直接 从 菜 
单 中 点 击 Build 按 钮 进行 编译 。make 指 令 中 ， 编 译 / 链 接 等 具体 步骤 都 会 号 在 Maketfile 文 件 中 。 


本 书 涉 及 的 程序 所 需 的 包 也 附加 在 Makefile 中 了 ， 只 是 在 windows 所 用 
的 Makefile 中 ，C 编 译 器 名 称 已 经 设置 为 了 了 gcc，make 名 称 也 设置 为 
gmake 参考 1.6.1 节 ) 。 如 果 你 的 系统 环境 不 一 样 的 话 ， 请 根据 实际 
情况 作 适 当 调 整 。 


解压 的 文件 夹 中 还 放 入 了 一 个 test.crb 的 示例 代码 ， 可 以 通过 下 面 的 指令 


一 /一 


运行 : 


% crowbar test.crb 
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4.1 crowbar ver.0.2 


crowbar book_ver.0.1 不 能 使 用 数组 ， 会 让 用 户 感觉 不 太 实 用 ， 因 此 在 
book_ver.0.2 中 我 们 将 引入 数组 的 概念 。 


4.1.1 ”crowbar 的 数组 


在 crowbar ver.0.2 中 ， 可 以 像 代码 清单 4-1 那 样 使 用 数组 。 
代码 清单 4-1 数组 





# 创 建 数组 
a={1,2,3,4, 5,6,7,8}; 





# 显 示 数 组 

for(i = 6;j i < a.size(); i++){ 
print("(" + a[i] + ")"); 

} 


print("\n"); 





# 创 建 九 九 乘法 表 
a99 = new array(9,9); 
for(i = 6j i < 9; i++){ 
for(j = 8; j < 9; j++){ 
a99[i][j] = (i+1) * (j+1); 


} 
} 


# 显 示 九 九 乘 法 表 
for(i = 6j i «< a99.size(); i = i + 1){ 
for(j = 86; j < a99[il].size(); j = j + 1){ 
print("[" + a99[i][j] + "]"); 
} 





print("\n"); 
} 


# 附 带 : 显示 字符 串 长 度 
print("len.." + "abc".length() + "\n"); 





0 在 大 多 数 脚 本 语言 中 ， 数 组 (或 者 列表 ) 都 可 以 用 常量 
外。 
例如 Perl 中 ， 像 这 样 : 


EE 


就 可 以 创建 一 个 由 1、2、3 组 成 的 数组 (列表 ) 。 


Ruby 和 Python 是 这 样 的 : 


[1，2，3] 


而 Tcl 是 这 样 的 : 


{1, 2, 3} 





语言 人 不同， 数组 的 定义 方式 也 不 相同 。 我 总 觉得 crowbar 与 C 语 言 比较 相 
似 ， 既 然 在 C 中 数组 用 {} 初始 化 ， 那 么 在 crowbar 中 也 使 用 {} 吧 。 


{1, 2, 3} 


用 这 种 方式 来 创建 数组 。 同 理 ， 


ai {1， 2， 3}; 


就 可 以 把 数组 赋值 给 变量 。 (如 果 这 么 写 的 话 ) 可 以 像 下 面 这 样 直 接 用 
下 标 指定 元 素 。 


{1, 2, 3}[1] 


这 个 表达 式 的 值 是 整数 型 的 2。 


另外 ， 数 组 的 元 素 中 可 以 包含 数组 或 其 他 所 有 数据 类 型 ， 并 且 每 个 元 义 
都 可 以 包含 不 同类 型 的 数据 。 


a = {true, 1, "abc", {5,1060.060}}; 








这 样 一 来 ， 在 a 中 包含 了 布尔 型 、 整 数 型 、 字 符 串 和 数组 四 个 类 型 的 元 
素 ， 其 中 第 4 个 元 素 包 含 了 数组 。a[3] 返回 一 个 数组 ，a[3][1] 返回 
10.0。 如 上 所 述 ，crowbar 中 虽然 不 存在 多 维 数 组 ， 但 实际 上 可 以 用 “ 数 


组 的 数组 ”方式 来 实现 。 
4.1.2 访问 数组 元 素 


从 上 一 市 给 出 的 例子 中 我 们 不 难看 出 ， 用 [] 的 方式 可 以 访问 数组 元 
素 。 当 然 ， 下 标 是 从 0 开始 的 。 


这 个 语句 把 数组 a 的 第 i 个 元 素 赋值 给 变量 b 。 


上 面 这 个 语句 将 整数 5 赋值 给 a 的 第 i 个 元 素 ， 但 如 果 a 不 是 数组 类 型 的 
话 ， 运 行 时 就 会 出 现 错误 。 还 有 ，[] 中 必须 是 整数 类 型 。 


crowbar 的 数组 不 支持 自动 扩展 。 在 Perl 等 有 些 语言 里 ， 只 要 使 用 像 
a[166] = 16; 这 样 的 语句 就 可 以 让 数组 自动 扩展 ， 与 数组 当前 的 大 小 
无 关 。 在 把 所 有 数组 都 视 为 关联 数组 (字符 串 等 也 可 以 作为 下 标 〉 的 语 
言 《如 Javascript) 中 ， 也 可 以 随时 随地 给 a[166] 赋值 。 但 是 ， 这 种 语 
言 的 设计 方式 在 我 看 来 迟早 会 出 现 bug。 在 crowbar 里 ， 如 果 a 的 元 素数 
人 无 论 是 给 a[16] 赋值 还 是 引用 a[18] 元 素 ， 都 会 引发 运行 时 
错误。 


4.1.3 ”数组 是 一 种 引用 类 型 


crowbar 的 数组 是 一 种 引用 类 型 。 什 么 是 引用 类 型 呢 ? 说 白 了 ， 束 是 指 
回 原 始 值 的 变量 类 型 ， 其 实 束 是 指针 。 与 C 语 言 不 同 的 是 ，crowbar 的 数 
组 类 型 不 会 发 生 访问 错误 内 存 地 址 的 情况 。 


一 个 数组 赋值 给 变量 a 时 ， 实 际 上 a 保存 的 是 这 个 数组 的 “指向 ”的 值 ， 
将 这 个 值 赋 给 其 他 变量 的 话 ， 两 个 变量 就 指 癌 了 同一 个 数组 。 因 此 ， 下 
面 这 段 程序 会 输出 a[1]. .5 。 























a = {1, 2, 3}; 
b a; 


b[1] = 5; 
print("a[1].." + a[1] + "\n"); 








把 a 赋值 给 b ， 这 样 一 来 变量 a 和 变量 b 就 和 图 4-1 一 样 ， 同 时 指 癌 同 一 
个 数组 。 


b 


图 4-1 两 个 变量 引用 同一 个 数组 
补充 知识 “数组 的 数组 > 和 多 维 数组 


前 面 提 到 过 ，crowbar 语 言 中 虽然 没有 多 维 数 组 ， 但 有 了 “数组 的 数组 ” 基 
本 上 就 可 以 实现 用 多 维 数组 做 的 事情 。 


如 果 要 在 crowbar 中 引入 多 维 数组 的 话 ， 元 素 就 要 用 下 面 这 种 形式 引用 
本 


这 种 多 维 数组 有 一 个 个 方便 的 地 万 ， 跌 是 个 能 早 独 取出 数组 中 的 一 部 
p42 
刀 。 








举 个 例子 ， 销 售 额 以 月 为 单位 存在 数组 中 ， 如 果 想 指定 月 份 和 日 期 取出 
菏 一 日 的 销售 额 ， 要 写成 下 面 这 样 : 








# 取 11 月 15 日 的 销售 额 (month，day 都 从 9 开始 ) 


uriage[16][14] 





如 打 想 要 定义 一 个 函数 来 计算 茶 个 月 的 总 营业 额 ， 要 写成 下 面 这样 ， 只 
把 茶 个 月 的 数组 作为 参数 传递 给 这 个 函数 。 


# 接 受 一 个 数组 并 计算 合计 值 的 函数 〈 以 11 月 的 销售 额 为 例 ) 


calc_sum(uriage[16]) 











上 面 的 例子 ， 数 组 的 数组 可 以 做 到 ， 多 维 数 组 就 没 办 法 了 特别 是 

当 calc_sum( 是 通用 函数 的 时 候 ) 。 

难道 说 多 维 数组 就 一 点 优点 都 没有 吗 ? 也 不 能 这 么 说 。 由 于 在 crowbar 
语言 中 数组 是 引用 类 型 的 ， 因 此 数组 的 数组 会 像 图 4-2 中 那样 分 配 内 
存 ， 如 果 是 多 维 数组 的 话 也 许 会 像 图 4-3 那 样 。 根 据 malloc() 函数 的 机 
制 ， 申 请 内 存 时 多 少 都 需要 一 些 管理 空间 ” ， 申 请 多 个 不 连续 的 空间 会 
加 重 GC 的 负担 。 总 而 言 之 ， 多 维 数组 在 运行 效率 上 ， 可 能 比 数组 的 数 


组 要 高 一 些 ”。 








* 不 考虑 crowbar 的 MEM 实 际会 占用 更 大 的 管理 空间 。 











*C 语 言 中 只 有 “数组 的 数组 ”， 数 组 也 不 属于 引用 类 型 ， 在 这 里 道理 是 一 样 的 。 


Ce 























图 4-2 “数组 的 数组 ”的 内 存 构造 


3x3 的 "二 维 数 组 " 


时 


图 4-3 “多 维 数 组 ”的 内 存 构造 

另外 ， 使 用 数组 的 数组 可 以 改变 茶 个 特定 子 数组 的 长 度 或 者 将 其 设置 为 
null。 当 然 ， 要 说 它 的 方便 性 还 能 举 出 很 多 例子 来 ， 但 是 也 有 不 需要 它 
的 时 候 ， 比 如 一 个 五 子 棋 的 棋盘 ， 已 经 定好 了 是 8x8， 因 此 用 多 维 数组 
来 表示 会 更 明确 。 

C#、D、Ada 等 语言 能 够 同时 文 持 数组 的 数组 和 多 维 数组 。 

4.1.4 为 数组 添加 元 素 


crowbar 的 数组 不 能 简单 地 使 用 赋值 语句 进行 目 动 扩 展 ， 而 是 需要 显 式 
地 添加 元 素来 扩展 数组 。 下 面 的 代码 在 数组 的 末尾 追加 了 一 个 元 素 。 


d= {1, 2， 3}; 
a.add(4); 


这 样 一 来 ，a 所 指向 的 数组 就 变 成 了 {1，2，3，4}。 

根据 实际 情况 ， 有 些 数 组 希望 一 次 就 生成 指定 的 大 小 。 比 如 ， 想 要 管理 
40 名 学 生 的 身高 ， 用 索引 值 来 表示 学 号 ， 但 是 生成 数据 的 顺序 是 随机 
的 。 像 这 种 情况 最 好 从 一 开始 束 预 先生 成 一 个 40 个 元 系 的 数组 。 


我 觉得 还 是 不 要 过 多 摆弄 语法 ， 使 用 原生 函数 比较 好 。 原 生 函 
数 new_array() 可 以 生成 一 个 指定 大 小 的 数组 。 


a = new_ array(46) ; 


初始 化 状态 下 ， 所 有 的 元 素 都 是 nul1 。 
给 这 个 函数 传 入 多 个 参数 ， 也 可 以 生成 多 维 数组 〈 数 组 的 数组 ) 。 


a = new_ array(5，16); 


上 例 创 建 了 一 个 元 系 最 多 到 a[4][9] 的 数组 。 





























4.1.5 增加 (模拟 ) 函 数 调用 功能 
前 面 的 章节 中 ， 使 用 了 一 种 类 似 函 数 调用 式 的 语法 结构 为 数组 添加 元 


妨 \ 9 


a.add(3); 


为 了 文 持 这 种 函数 调用 《类 似 的 表示 方法 ) ， 我 们 修改 了 语法 结构 ， 也 
为 字符 串 类 型 增加 了 length() 函数 。 


4.1.6 ”其 他 细节 
变更 了 左边 值 的 处 理 方式 ， 接 着 引入 了 自 增 和 自 减 运算 符 。i++ 时 i 会 
增加 1，-- 时 同 理 。 目 增 和 上 自 减 运算 符 只 能 放 在 后 面 ， 不 文 持 前 置 的 ++ 





C 语 言 中 目 增 和 目 减 运算 符 前 置 和 后 置 的 含义 不 同 ， 人 们 很 难 读 懂 在 一 
行 里 面 写 满 了 表达 式 的 代码 ， 所 以 我 觉得 自 增 和 上 自 减 最 好 还 是 独占 一 
行 ， 这 样 一 来 前 置 和 后 置 的 含义 束 相 同 了 ， 不 论 写 在 哪 边 都 一 样 了 。 惑 
我 个 人 来 说 一 般 习 惯 写 在 后 面 。 

也 许 有 人 会 问 了 ， 在 一 行 里 只 能 写 一 个 自 增 和 自 减 的 话 ， 为 什么 它们 非 
要 是 表达 式 呢 ? 变 成 语句 不 是 更 好 吗 ? 如 果 是 这 样 的 话 ，for 语句 的 第 
三 个 表达 式 就 没 法 使 用 i++ 了 ， 所 以 它们 还 是 用 作 表 达 式 吧 。 

















4.2 制作 mark-sweep GC 


crowbar book_ver.0.1 中 采用 的 引用 计数 器 型 GC 存在 不 能 释放 循环 引用 的 
问题 ， 于 是 在 book_ver.0.2 中 将 实现 一 个 mark-sweep 型 的 GC。 


4.2.1 引用 数据 类 型 的 结构 


在 讨论 GC 的 话题 之 前 ， 先 说 明 一 下 crowbar ver.0.2 中 引用 数据 类 型 的 处 
1 


crowbar 中 有 以 下 两 种 引用 数据 类 型 : 








。 数 组 
。 字 符 串 


尤其 是 字符 串 ， 它 是 一 个 不 允许 改变 内 容 (immutable) 的 对 象 ， 用 户 
没有 必要 意识 到 它 是 一 个 引用 (请 参考 4.2.2 闻 的 补充 知识 ) 。 


crowbar 的 所 有 值 都 保存 在 CRB_Value 中 。 在 crowbar book_ver.0.1 

里 ，CRB_Value 直接 保存 着 指向 CRB_String 的 指针 。 从 现在 开始 ， 将 
增加 新 的 CRB_0bject 类 型 用 来 统一 处 理 字 符 串 和 数组 ， 在 CRB_Value 
中 将 保存 指向 CRB_0bject 的 引用 。 








typedef struct{ 
CRB_ValueType type; 
union{ 
CRB_Boolean boolean value; 
int int_value; 
double double value; 


CRB_NativePointer native pointer; 
CRB_Object *object;/* 这 个 是 新 增 的 */ 
} yu; 
} CRB_Value; 




















用 CRB_0bject 内 的 共用 体 来 保存 CRB_String 以 及 为 了 这 次 数组 而 引 
入 的 类 型 CRB_Array 。 


typedef enum{ 
ARRAY_OBJECT 
STRING OBJECT, 
OBJECT_TYPE_COUNT_PLUS 1 
} ObjectType; 


struct CRB Object tagt{ 
ObjectType type; 
unsigned int marked:1; 


union{ 
CRB_Array array; 
CRB_String string; 
} uy; 
struct CRB Object tag *prev; 
struct CRB Object tag *next; 





虽然 CRB_Value 可 以 明确 地 区 分 类 型 ， 但 是 为 了 在 GC 的 时 候 仅仅 使 
用 CRB_ Object 就 能 区 分 出 来 ， 在 CRB_0bject 中 保存 了 一 个 枚 举 类 型 
ObjectType 。 


CRB_0bject 的 成 员 marked 作为 一 个 标记 对 象 用 的 标识 符 ， 将 用 于 后 
面 要 谈 到 的 mark-sweep GC。 人 至 于 它 的 数据 类 型 ， 由 于 1 个 比特 就 足够 
了 ， 因 此 选择 了 位 域 (bit field) 。 


说 起 位 域 这 个 功能 ， 即 使 在 C 语 言 中 也 不 太 会 用 到 。 现 在 的 免费 软件 
中 ， 应 该 也 有 不 少 自 己 进行 位 运算 并 为 int 变量 附加 各 种 标识 的 情况 ， 
事 到 如 今 也 没有 理由 特意 地 避 开 位 域 这 个 话题 了 。 不 过 ， 如 果 从 富翁 式 
编程 的 角度 出 发 ， 就 算是 1 个 比特 的 标志 位 ， 可 能 也 得 给 它 分 配 一 

个 CRB_Boolean 型 。 


CRB_0bject 的 共用 体 中 保存 着 CRB_Array 和 CRB_String 的 引用 ， 它 
们 的 定义 如 下 : 


struct CRB Array tag { 
int size;/* 显示 用 的 元 素数 */ 
int alloc_size;/* 实际 占用 的 元 素数 */ 
CRB_Value *array;/* 数组 元 素数 组 长 度 可 变 ) */ 
































3 
struct CRB_Sstring tag { 
CRB_Boolean is literal; 


char *cstring; 


}; 





为 了 提高 效率 ， 数 组 在 添加 元 素 时 一 次 会 多 扩展 一 些 空间 ， 所 以 在 size 
属性 之 外 还 保存 了 alloc_size 属性 。 


4.2.2 mark-sweep GC 


前 面 说 过 ，book_ver.0.1 中 使 用 的 引用 计数 右 式 的 GC 不 能 释放 循环 引 
用 。 在 book_ver.0.1 里 ，GC 对 象 只 是 为 了 释放 字符 串 资 源 ， 并 不 会 因为 
循环 引用 而 引起 问题 。 但 是 有 了 数组 的 数组 ， 这 样 的 方式 在 
book_ver.0.2 中 束 有 可 能 引起 问题 ， 比 如 : 


a = {1， 2， 3}; 








b = {4， 5， a}; 
a[6] = b; 


这 样 一 段 代 码 就 形成 了 图 4-4 中 描述 的 循环 引用 。 


发 生 循环 引用 时 ， 即 使 它们 整体 上 不 再 被 引用 ， 引 用 计数 器 此 时 也 不 为 
0。 这 束 是 所 谓 的 内 存 泄漏 。 





图 4-4 循环 引用 


于 是 我 们 抛弃 掉 引 用 计数 器 型 的 GC， 引 入 mark-sweep GC 。 本 来 所 谓 
的 垃圾 回收 (GC) 就 是 要 自动 释放 不 使 用 的 对 象 占据 的 内 存 空间 的 机 
0 的 对 象 ? 呢 ? 就 是 “绝对 不 会 被 引用 到 的 
对 象 ”。 0: 


这 样 一 段 代 码 在 执行 了 第 二 行 的 赋值 语句 后 ，{1，2，3} 这 个 数组 就 不 
再 被 引用 了 ， 即 成 为 了 GC 的 对 象 。 


有 EE 谁 都 不 引用 这 个 数组 了 


图 4-5 对象 成 为 GC 目 标的 例子 


所 谓 mark-sweep GC 是 一 种 下 接 实 现 定义 “不 使 用 的 对 象 ? 的 GC 算法 。 这 
个 算法 有 以 下 几 个 原则 。 


1. 从 变量 之 类 的 “引用 起 点 ”开始 ， 妃 溯 所 有 能 引用 到 的 对 象 并 将 其 标 
记 。 (mark 阶 段 ) 
2. 将 没有 被 标记 的 对 象 全 部 释放 。 (sweep 阶 段 ) 


ee 我 们 称 这 些 “ 引 用 起 点 ”为 
民 (root) 。 


1. 全 局 变量 

2. 局 部 变量 。 包 含 crowbar 中 描述 的 函数 的 形式 参数 。 
3. 原生 函数 的 形式 参数 。 

4. 表达 式 计 算 时 的 临时 引用 。 


只 有 从 这 些 根 能 够 退 溯 到 的 对 象 存留 下 来 ， 其 余 的 对 象 才能 将 被 视 作 是 
GC 的 目标 被 释放 挥 。 
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CG 
CG 
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将 被 释放 的 对 象 
人 不 会 被 释放 的 对 旬 


加 


0 
直 吕 次 洛 


久 的 参数 
计算 时 的 临时 值 


图 4-6 成 为 GC 目标 的 对 象 


其 实 这 些 根 中 最 难处 理 的 就 是 “表达 式 计 算 时 的 临时 引用 ”。 比 如 有 个 表 
达 式 "abc" + "def" + "ghi" ，crowbar 的 解释 器 首先 会 计算 "abc" + 
"def" ， 生 成 字符 串 "abcdef"”。 这 个 字符 串 的 存在 是 必要 的 ， 但 不 论 
是 全 局 变量 还 是 局 部 变量 或 者 原生 函数 的 形式 参数 都 不 会 引用 它 ， 这 个 
时 候 GC 很 难 决定 如 何 处 理 。 也 许 有 人 会 想 :“ 在 这 种 关键 时 刻 不 要 让 
GC 有 局 动 不 就 行 了 ? ”下 面 这 个 例子 就 曾 述 了 crowbar 为 何在 此 时 要 局 动 


























GC 的 原因 。 


* 现 在 的 crowbar 并 没有 在 编译 时 处 理 多 个 字符 串 常量 的 加 法 运算 《虽然 可 以 这 么 做 ) ， 所 以 
在 这 个 例子 中 ， 使 用 字符 串 常 量 进 行 加 法 运算 的 效果 与 使 用 字符 串 变 量 相同 ， 这 里 并 不 是 为 
了 说 明 变 量 和 常量 的 差异 。 





































































































print("abc" + "def" + long long function()); 








假如 采用 了 “在 表达 式 计算 过 程 中 不 进行 GC” 的 原则 ， 但 本 例 中 的 
long_long_function() 在 执行 过 程 中 不 进行 GC 是 不 现实 的 ， 所 以 在 
表达 式 计算 的 过 程 中 应 该 允许 局 动 GC。 


crowbar 中 GC 的 启动 时 机 将 在 后 面 的 章节 介绍 ， 大 概 的 原则 就 是 ， 在 新 
分 配 内 存 空间 的 时 候 有 可 能 会 启动 。 














补充 知识 ”引用 和 immutable 


在 crowbar 中 ， 整 数 和 实数 类 型 的 变量 都 是 把 值 直 接 存 在 CRB_Value 
中 ， 但 是 字符 串 和 数组 类 型 在 CRB_Value 中 只 保存 引用 。 举 例 来 说 ， 
Java 与 crowbar 相 同 ， 在 Java 中 像 int 或 者 double 这 样 的 类 型 叫 作 原始 
类 型 (primitive type) ， 而 像 字符 串 或 者 数组 这 样 的 类 型 叫 作 引用 类 型 


(reference type) 。 


有 人 可 能 会 说 ， 存 在 两 个 种 类 的 数据 类 型 有 违 编程 之 美 ， 可 是 在 
crowbar 中 首先 你 不 必 认 为 字符 串 是 一 种 引用 类 型 。 至 于 数组 ， 只 有 像 
下 面 这 上 段 代 码 编写 出 的 数组 才 是 一 种 引用 类 型 。 


q 








{1, 2, 3}; 


b a; 
a[1] = 16; < 这 行 代码 也 可 蔡 换 为 bp[1]， 效 果 相 同 








如 末 是 字符 串 的 话 ， 就 没 办 法 改变 其 内 容 了 这样 的 数据 类 型 称 为 
immutable 的 数据 类 型 ) 。 比 如 用 + 运算 符 连 接 字符 串 ， 就 会 得 到 一 个 新 
的 字符 串 对 象 ， 之 前 ! 字符 串 对 象 的 内 容 不 会 发 生 改变 。 


1 即 参 与 运算 。 一 一 译 者 注 














'd"; «a 会 变 为 "abcd"，b 还 是 "abc" 





男 外 ，crowbar 中 字符 串 如 果 使 用 == 进 行 比 较 的 话 ， 不 是 进行 引用 之 间 
的 比较 ， 而 是 比较 字符 串 的 内 容 。Java 在 这 种 情况 下 比较 的 就 是 引用 ， 
难 不 成 是 特意 让 人 感觉 到 字符 串 是 一 种 引用 ? 


* 也 不 知道 Java 这 样 的 设计 方便 性 在 哪里 ? 可 能 是 会 提升 intern() 的 效率 吧 。 


按照 刚才 的 思路 ， 可 能 只 能 让 字符 串 看 起 来 像 是 一 个 原始 类 型 吧 ， 数 组 
仍然 是 引用 类 型 。 但 这 样 的 解释 并 不 能 让 刚才 说 “存在 两 个 种 类 的 数据 
类 型 有 违 编程 之 美的 人 ”满意 吧 。 


那么 不 妨 进 行 一 下 逆 回 思维 ， 可 以 把 整数 类 型 和 实数 类 型 都 看 作 是 引用 
类 型 。 这 样 一 来 ，immutable 的 引用 类 型 和 原始 类 型 束 看 不 出 区 别 了 。 
如 果 先 把 实现 的 问题 放 在 一 边 的 话 ， 也 可 以 揭 强 把 整数 和 实数 看 作 是 
immutable 的 引用 类 型 。 


不 知道 上 面 的 解释 能 否 使 那些 认为 “存在 两 个 种 类 的 数据 类 型 有 违 编程 
之 美的 人 ”满意 。 不 过 ， 在 给 一 个 真正 的 编程 新 手 讲 这 个 问题 时 ， 这 样 
的 说 法 还 是 人 蛋 容易 理解 的 ， 剩 下 的 问题 束 应 该 由 我 来 考虑 了 。 


现在 的 编程 入 门 书 里 ， 基 本 上 都 把 变量 解释 为 “ 像 是 用 来 放 值 的 盒 
子 ”( 我 曾经 也 这 样 写 过 ) 。* 盒 子 说 "是 用 来 解释 原始 类 型 的 ， 如 果 要 
流明 切 才 是 引用 "就 不 得 不 引入 其 他 说 法 了 。 《也 许 是 "名 上 

说 "? ) 


“盒子 说 ”也 不 是 坚 无 问题 的 。 (b= a; 的 时 候 ，a 的 内 容 转 移 到 了 b 里 面 ， 
那 a 不 是 应 该 变 成 空 的 了 吗 ? ) 对 于 大 多 数 新 手 来 说 ， 好 像 很 难 理解 引 
用 的 概念 。 男 外 ， 关 于 “存在 两 个 种 类 的 数据 类 型 有 违 编程 之 美 ” 这 种 说 
法 ， 新 手 也 不 会 太 在 意 统一 性 之 类 的 事情 (对 编程 语言 有 了 一 定 程度 的 
了 解 后 才 会 在 意 ) 。 以 我 的 经 验 来 看 ， 如 果 是 以 教会 新 手 编程 为 目的 ， 
与 其 让 他 们 知道 统一 性 之 类 的 道理 ， 不 如 用 盒子 说 来 得 简单 。 总 而 言 
之 ， 试 着 写 代 码 才 是 对 编程 语言 的 学 习 最 有 帮助 的 。 







































































4.2.3 ”crowbar 栈 


让 我 们 继续 “表达 式 计算 时 的 临时 引用 很 难处 理 ” 这 个 话题 。 


如 果 你 要 问 在 哪儿 出 现 了 “表达 式 计 算 时 的 临时 引用 ”， 其 实 crowbar 
book_ver.0.1 里 面 的 eval.c 中 各 函数 的 局 部 变量 就 是 。 


比如 字符 串 连 接 时 ，crb_eval_binary_expression() 函数 会 按照 以 
顺序 执行 (具体 代码 省 略 〉。 
CRB Value left val; 


CRB_Value right val; 
CRB_Value result; 








/* 计算 左边 的 值 */ 
left val = eval expression(inter, env, left); 
/* 计算 右边 的 值 */ 


right val = eval expression(inter, env, right); 








(中 间 管 略 ) 


result.type = CRB_STRING VALUE; 


/* chain_string 执 行 时 ，GC 可 能 会 启动 */ 





result.u.string value = chain string(inter, 
left val.u.string value, 
right_str); 


(中 间 和 省 略 ) 


return result; 





像 ["abc" + "def" + "ghi"] 这 样 的 计算 表达 式 ， 它 的 分 析 树 如 图 4- 
7 所 示 。 因 为 是 从 最 深层 次 开始 计算 ，left_val 会 暂时 持 有 指向 字符 
串 "abcedf" 的 引用 ， 然 后 在 调用 chain_string() 函数 时 ， 由 于 会 申 
请 内 存 空间 ， 因 此 也 有 可 能 启动 GC (关于 GC 启动 的 时 机 ， 我 将 在 4.3.2 
节 介 绍 ) 。 此 时 ， 虽 然 会 将 left_val 指向 的 对 象 进行 

mark (chain_string() 会 被 更 深 的 层级 调用 ) ,但 是 从 GC 的 角度 ， 
是 看 不 到 只 作为 局 部 变量 的 left_val 的 。 

















由 left val 持 有 引用 


创建 "abcdef" 性 C rap 


图 4-7 ”字符 串 连 接 的 分 析 树 


想 要 解决 这 个 问题 倒是 有 一 个 办 法 ， 束 是 扫描 C 的 局 部 变量 内 存 区 域 
CRuby 使 用 的 方法 ) 。C 语 言 的 局 部 变量 保存 在 一 般 栈 中 ， 程 序 开始 运 
行 时 《每 个 CRB_interpretO 函 数 ) 会 记 住 这 些 局 部 变量 的 地 址 ， 如 果 在 
调用 GC 时 再 取得 这 些 局 部 变量 的 地 址 的 话 ， 你 会 发 现 它 应 该 与 crowbar 
运行 过 程 中 保存 的 局 部 变量 的 地 址 是 一 致 的 〈 在 不 优化 寄存 器 分 配 的 情 
况 下 ) 。 于 是 ， 扫 摘 全 部 内 存 区 域 ， 如 果 发 现 了 保存 着 〈 或 者 看 上 去 像 
是 ) 对 象 引 用 的 内 存 区 域 的 话 ， 束 把 这 个 区 域 作为 起 点 标记 出 来 。 


只 是 这 个 方法 有 如 下 缺点 ， 让 我 不 太 想 用 它 。 
。 但 是 ) 依赖 于 C 语 言 的 处 理 体 系 ， 有 违 编 
时 之 美 。 




















。 因为 不 知道 是 栈 中 的 哪些 部 分 引用 的 对 象 ， 所 以 不 得 不 采取 “把 看 
上 去 像 对 象 引 用 的 全 部 当做 对 象 引 用 来 处 理 ” 的 方法 。 如 果 要 处 理 
的 区 域 不 是 引用 对 象 ， 束 会 发 生 内 存 泄 漏 。 顺 便 说 一 句 ， 这 种 GC 
叫 作 conservative GC (保守 的 GC) 。 


就 内 存 泄漏 而 言 ， 我 觉得 (从 Ruby 应 用 的 情况 来 看 〉 在 应 用 上 不 成 问题 
”。 虽 说 这 是 C 语 言 ， 但 要 让 我 胡乱 地 将 指针 作为 地 址 处 理 也 是 万 万 不 


























* 这 种 内 存 溢出 会 随 着 运行 时 间 慢 慢 汇 漏 。 这 种 性 质 的 内 存 泄漏 ， 根 据 程 序 的 用 途 也 许 会 起 到 致 
命 的 作用 ， 我 认为 在 这 种 类 型 的 conservative GC 中 ， 总 会 有 一 定 几率 造成 对 象 泄 漏 ， 并 且 在 数 
量 上 也 会 占 到 栈 的 一 定 比例 。 


crowbar 到 底 要 怎么 处 理 呢 ? 既然 C 语 言 的 栈 这 么 不 好 用 ， 那 么 全 部 用 独 
立 的 栈 管理 不 就 好 了 吗 ? 对 此 ， 把 “表达 式 运 算 时 的 临时 引用 ” 放 在 独立 
ee 数组 ) 中 ，GC 把 这 个 栈 中 可 以 引用 到 的 对 象 标记 起 
来 天 可 以 了 。 


用 Stack 结构 体 来 表示 栈 。 















































typedef struct { 
int stack alloc size; 
int stack pointer; 


CRB_Value *stack; 
} Stack; 





在 CRB_Interpreter 中 持 有 这 个 结构 体 ( 只 有 CRB_Interpreter 会 持 
有 Stack 结构 体 ， 所 以 这 么 做 只 是 为 了 划分 空间 ) 。 在 这 个 栈 中 《以 后 
就 称 为 crowbar 栈 吧 ) ， 与 是 否 包 含 对 象 的 引用 无 关 ， 它 会 把 表达 式 运 
算 时 产生 的 所 有 值 都 保存 起 来 。 

在 此 之 前 ， 所 有 的 eval.c 运 算 函 数 都 将 运算 的 结果 值 作 为 返回 值 ， 而 
Ver.0.2 以 后 的 版 本 都 将 由 栈 返 回 。 因 此 ， 之 前 使 用 过 的 
eval_xxx_expression() 系列 函数 的 返回 值 也 从 CRB_Value 变 成 void 
这 


例如 ， 有 如 下 表达 式 : 


23 


会 形成 如 图 4-8 这 样 的 分 析 树 ， 表 达 式 运算 时 栈 的 变化 如 图 4-9 所 示 。 





图 4-8 ”表达 式 的 分 析 树 


nA EI wp | | é 
[时 > 123. | © "1+2*3..." | @-| Wb ) 
: } 
2 6 
四 > | E> 
: 
| © W142*3..." M1+2*3..." "1+2*3..." ) 
应 用 应 用 + 应 用 + ~ 一 








图 4-9 ”表达 式 运算 过 程 中 栈 的 变化 


总 而 言 之 ， 就 是 从 栈 中 获取 了 * 和 + 运算 符 的 操作 数 ， 并 将 运算 结果 的 
值 留 在 了 栈 上 。 0 如 此 一 
来 ， 我 们 束 问 字 节 人 码 解释 右 叉 迈进 了 一 


本 书 的 后 半 部 分 将 介绍 字 节 码 解释 器 型 语言 的 制作 方法 。 
4.2.4 其 他 根 


接 下 来 ， 将 要 说 明 除了 “表达 式 运 算 时 的 临时 引用 ”之 外 的 三 种 根 。 
1. 全 局 变量 


全 局 变量 可 以 在 CRB_Interpreter 中 以 链表 的 形式 追 滴 ， 很 容易 以 此 
为 起 点 进行 标记 。 

2. 局 部 变量 

在 LocalEnvironment 结构 体 中 持 有 局 部 变量 ， 并 作为 参数 传递 。 
为 了 使 GC 能 够 全 部 标记 当前 生效 的 局 部 变量 ， 并 且 在 任何 时 候 都 能 追 
踪 到 这 些 局 部 变量 ， 在 LocalEnvironment 中 增加 了 成 员 next ， 使 之 


成 为 链表 0 吉 构 体 都 写 在 CRB_dev.h 中 ， 所 以 加 上 CRB_ 
作为 前 级 。 请 参考 4.4.4 节 ) 。 





struct CRB LocalEnvironment tag { 
Variable *vyariable; 
GlobalVariableRef *global variable; 
RefInNativeFunc *ref_in_native_method;/* 之 后 会 讲 到 */ 











struct CRB LocalEnvironment tag *next;/* 新 增加 * 











链表 的 顶端 由 CRB_Interpreter 持 有 。 这 里 的 “顶端 ” 指 的 是 最 后 被 调 
用 的 函数 的 CRB_LocalEnvironment 。 


struct CRB_ Interpreter tag { 
(省 略 ) 


CRB_LocalEnvironment *top_environment; 

















}; 














值得 一 提 的 是 ， 当 前 的 crowbar 版 本 在 搜索 局 部 变量 的 时 候 ， 会 从 最 近 
一 次 被 作为 参数 传递 的 LocalEnvironment 开始 搜索 ， 顺 着 next ， 按 
照 函 数 调用 的 顺序 搜索 全 部 LocalEnvironment 。 这 样 一 来 ! ， 就 可 以 
引用 到 函数 调用 者 的 变量 了 。 


1 即 在 函数 被 调用 时 。 一 一 译 者 注 








这 样 的 作用 域 称 为 动态 作用 域 (dynamic scope)“。 说 实话 ， 这 点 确实 
让 人 难以 理解 ， 所 以 在 最 近 的 语言 中 已 经 不 流行 这 种 方式 了 〈Emacs 
Lisp 和 Perl 之 类 的 local 变量 都 是 动态 作用 域 ) 。 


2 关于 动态 作用 域 的 策略 , “对 一 个 名 字 x 的 使 用 指向 的 是 最 近 被 调用 但 还 没有 终止 且 声 明了 x 的 
过 程 中 的 这 个 声明 。 (摘自 “ 龙 书 ”P19) 一 一 译 者 注 


4.2.5 ”原生 函数 的 形式 参数 


在 调用 的 时 候 ， 没 必要 特意 把 crowbar 中 描述 的 函数 的 形式 参数 保存 为 

局 部 变量 。 原 生 函 数 的 形式 参数 以 数组 的 形式 传递 给 原生 函数 ， 这 样 一 
即使 GC 在 原生 函数 执行 过 程 中 局 动 ， 这 些 变量 也 可 以 被 GC 妃 漳 
到 。 


人 函数 的 实际 参数 存 入 crowbar 栈 中 ， 传 递 给 原生 函数 的 只 是 头 地 
































的 栈 将 占用 更 大 的 内 存 地 址 。 因 此 ， 从 前 往 后 按 顺 序 对 参数 进 
运算 ， 即 可 将 参数 数组 传递 给 原生 函数 。 


4.3 ”实现 GC 本 身 


之 前 介绍 ss GC 的 基本 原理 和 crowbar 中 对 象 引用 的 “ 根 ?。 本 
节 开 始 介绍 究竟 在 crowbar 里 运行 着 什么 样 的 GC 以 及 它 的 实现 方式 。 


另外 ， 与 GC 相 关 的 代码 大 部 分 收录 在 heap.c 中 。 
4.3.1 对 象 的 管理 方法 


OWA 过 CRB_0bject 结构 体 保存 
在 堆 中 。CRB_Object 需 要 逐个 使 用 MEM_mallocO 申 请 内 存 空间 。 


*C 语 言 使 用 mallocO 申 请 内 存 空 间 ， 这 里 指 可 以 以 任意 顺序 来 申请 /释放 的 内 存 区 域 。 


前 面 已 经 给 出 了 CRB_0bject 结构 体 的 定义 ， 它 在 成 员 中 持 有 指针 prev 
和 next 。 由 名 字 可 以 联想 到 ，CRB_0bject 是 作为 双向 链表 进行 管理 
的 。 















































CRB_Interpreter 中 持 有 这 个 链表 的 头 节 点 。 为 了 方便 管理 堆 相 关 的 
信息 ， 我 们 定义 了 结构 体 Heap 。 
typedef struct { 


int current heap_size; 
int current threshold; 


CRB_Object *header; 
} Heap; 





header 指 问 CRB_0bject 链表 的 开头 。current_heap_size 和 
current_threshold 用 于 控制 GC 的 启动 时 机 。 


4.3.2 GC 何 时 启动 


在 程序 运行 的 过 程 中 ，mark-sweep GC 会 在 某 个 时 机 启动 ， 释 放 不 需要 
的 对 象 。 那 么 究竟 要 在 何 时 启动 GC 呢 ? 


其 中 一 种 方案 就 是 内 存 不 足 的 时 候 〈( 即 malloc() 返回 NULL 时 ) 。 我 们 
先 不 考虑 MEM_malloc() 在 malloc() 返回 NULL 时 会 调用 exit0 的 情 

况 ， 若 是 到 了 malloc() 返回 NULL 的 地 步 ， 那 就 说 明 内 存 空 间 是 真 的 不 
足 了 ， 此 时 再 运行 GC 为 时 已 晚 。 像 后 面 说 到 的 那样 ， 现 在 的 mark- 
sweep GC 需要 使 用 大 量 的 栈 空 间 ， 因 此 ， 如 果真 是 到 了 malloc() 返回 
NULL 的 时 候 ， 也 不 知道 GC 是 否 能 启动 。 大 多 数 的 操作 系统 即使 调用 了 
free() 函数 ， 也 不 会 将 释放 出 来 的 内 存 空间 还 给 操作 系统 ， 只 是 可 以 
再 次 使 用 malloc() 而 已 。 因 此 即使 GC 将 内 存 空间 释放 ， 其 他 应 用 《〈 进 
程 ) 也 不 能 使 用 ， 所 以 GC 要 是 坚持 到 内 存 被 占 满 时 才 启 动 的 话 ， 会 给 
其 他 程序 带 来 很 大 的 厅 烦 。 


于 是 ，crowbar 使 用 了 这 样 一 种 方式 ， 即 耗费 了 一 定量 的 内 存 后 ， 束 启 
动 GC。 这 个 一 定量 在 Heap 结构 体 的 current_threshold“ 中 保存 ， 初 
始 值 由 宏 1HEAP_THRESHOLD_SIZE 进行 定义 (#define ) ， 暂 定 为 
256KB。 























*threshold 是 浆 值 的 意思 。 
1 预 处 理 命令 。 译 者 注 


crowbar 每 次 创建 对 象 ， 都 要 把 所 创建 对 象 的 大 小 值 登 加 








到 CRB_Interpreter 中 Heap 结构 体 的 current_heap_size 上 。 这 个 
大 小 值 也 就 是 要 传 给 MEM_malloc() 的 大 小 值 ， 所 以 这 个 值 不 包 
含 malloc() 和 MEM 模块 的 管理 空间 (毕竟 是 相似 的 〉。 


而 且 ， 在 创建 对 象 前 ， 要 先 调 用 check_gc() 。 


static void 
check_ gc(CRB_Interpreter *inter) 


{ 

















/* 堆 耗 费 量 超过 阐 值 的 i 
if(inter->heap.current heap size > inter->heap.current threshold) { 
/* 启动 G6C */ 


crb_garbage collect(inter); 











/* 设 定 下 一 个 阐 值 */ 
inter->heap.current threshold 
= inter->heap.current heap size + HEAP_ THRESHOLD_ SIZE; 








上 面 的 函数 中 ， 如 果 堆 的 消耗 量 超过 了 当前 的 阔 值 就 启动 GC。GC 执 行 
的 时 候 ，current_heap_size 的 值 会 变 小 ， 将 变 小 后 的 

current heap_size 和 HEAP_THRESHOLD_SIZE 相 加 ， 就 得 出 了 下 一 
个 国 值 。 


至 于 函数 crb_garbage_collect() 就 没有 必要 详细 说 明了 。 


void 
crb_garbage collect(CRB_ Interpreter *inter) { 
gCc_mark_objects(inter);/* mark */ 


gc_sweep objects(inter);/* sweep */ 





上 面 调用 的 gc_mark_objects() 都 做 了 哪些 事 ， 请 参见 代码 清单 4-2。 在 清 
除了 所 有 对 象 mark 的 基础 上 ， 从 各 个 根 〈( 前 面 介绍 过 〉 开始 调 
用 gc_mark()。 


代码 清单 4-2 gc_mark_objects() 


static void 
gc_mark_objects(CRB_Interpreter *inter) 
{ 

CRB_Object *obj; 

Variable *yv; 

CRB_LocalEnvironment *]v; 

int i; 





/* 清除 全 部 标记 (mark) */ 
for (obj = inter->heap.header; obj; obj = obj->next) { 
gc_reset mark(obj); 





} 


/* 全 局 变量 */ 
for (v = inter->variable; v; Vv = Vv->next) { 
if (dkc_is object value(v->value.type)) { 
gCc_mark(v->value.u.object); 








} 
} 


/* 局 部 变量 */ 
for (lv = inter->top environment; lv; lv = lv->next) { 
for (v = lv->variable; Vv; v = Vv->next) { 
if (dkc_is object value(v->value.type)) { 
gCc_mark(v->value.u.object); 
} 
} 




















gc_mark_ref_in_native_method(lv); /* < 这 里 稍 后 再 做 说 明 */ 

















} 


/* crowbar 栈 */ 
for (i = 8; i < inter->stack.stack pointer; i++) { 
if (dkc _ is object value(inter->stack.stack[i].type)) { 
gc_mark(inter->stack.stack[i].u.object); 








gc_mark() 相关 内 容 请 参见 代码 清单 4-3。 如 果 对 象 已 经 被 标记 ， 束 直 
接 return (为 了 防止 发 生 循环 引用 时 出 现 死 循环 ) ， 然 后 将 自己 打上 
标记 。 如 果 是 数组 的 话 束 衣 历 每 个 元 素 ， 并 以 此 为 参数 递归 调 

用 gc_mark()。 


代码 清单 4-3 gc_mark() 


static void 
gc_mark(CRB_ Object *obj) 
{ 
if (obj->marked) 
return; 


obj->marked = CRB_TRUE ; 


if (obj->type = ARRAY OBJECT) { 


int i; 
for (i = 60; i < obj->u.array.size; i++) { 
if (dkc_ is object value(obj->u.array.array[i].type)) { 
gc_mark(obj->u.array.array[i].u.object); 


} 





4.3.3 sweep 阶段 


在 sweep 阶 段 释放 那些 链表 中 没有 被 标记 的 管理 对 象 ， 并 对 链表 进行 维 
护 《 见 代码 清单 4-4) 。 


代码 清单 4-4 gc_sweep_objects() 





static void 
gCc_sweep objects(CRB_Interpreter *inter) 


{ 


CRB_Object *obj; 
CRB_Object *tmp; 


for (obj = inter->heap.header; obj; ) { 
if (lobj->marked) { 
if(obj->prev) { 
obj->prev->next = obj->next; 
} else { 
inter->heap.header = obj->next; 
} 
if (obj->next) { 
obj->next->prev = obj->prev; 
} 


tmp = obj->next; 


gc_dispose object(inter, obj); 
obj = tmp; 

} else { 
obj = obj->next; 





这 其 中 调用 的 gc_dispose_object() 把 数组 和 字符 串 区 分 进行 处 理 ， 
释放 CRB_0bject 顶端 指向 的 区 域 〈 见 代码 清单 4-5) 。 


代码 清单 4-5 gc_dispose_object() 


static void 
gc_dispose object(CRB_ Interpreter *inter, CRB_ Object *obj) 
{ 
switch (obj->type) { 
case ARRAY OBJECT: 
inter->heap.current heap_size 
-= sizeof(CRB Value) * obj->u.array.alloc size; 
MEM_ free(obj->u.array.array); 
break; 
case STRING OBJECT: 
if (lobj->u.string.is literal) { 
inter->heap.current heap_ size -= strlen(obj->u.string.string) + 


MEM free(obj->u.string.string); 


} 


break; 
case OBJECT TYPE COUNT_ PLUS 1: 
default: 
DBG assert(60, ("bad type..%d\n", obj->type)); 
} 
inter->heap.current heap size -= sizeof(CRB Object); 
MEM free(obj); 





补充 知识 ”GC 现存 的 问题 


crowbar 的 GC 最 简单 地 实现 了 mark-sweep GC。 因 为 是 最 简单 的 实现 ， 所 
以 还 存在 以 下 问题 。 


一 /一 


1. 运行 GC 时 ， 程 序 会 停止 运行 。 
2. 进行 标记 (mark) 时 的 递归 调用 会 消耗 大 量 的 栈 空间 。 


首先 是 问题 1。 因 为 是 简单 实现 了 mark-sweep 算 法 ， 所 以 在 进行 mark- 
sweep 时 会 完全 停止 主 程序 的 运行 (crowbar 也 是 如 此 ) 。 为 了 避免 ( 减 
轻 ) 这 个 问题 ， 大 概 有 以 下 两 种 方法 : 


。 让 GC 和 主 程序 异步 〈 并 行 ) 执行 ; 
。 使 用 新 一 代 GC 技 术 。 


如 果 让 GC 和 主 程序 异步 〈 并 行 ) 执行 ， 虽 然 GC 占 用 CPU 的 总 耗 时 不 

变 ， 但 是 可 以 避免 程序 停止 的 情况 ， 这 对 于 一 个 互动 程序 来 说 是 非常 重 
要 的 。 但 是 ， 实 际 上 GC 在 异步 执行 时 ， 肯 定 会 发 生 当 GC 标 记 对 象 时 ， 

主 程序 中 的 对 象 引 用 关系 同时 发 生 改 变 的 情况 ， 这 样 一 来 有 些 对 象 就 可 
能 被 遗漏 而 没有 打上 标记 。 避 人 免 这 种 情况 发 生 的 方法 是 有 的 (请 

用 “write barrier” 等 词 搜索 一 下 ) ， 但 是 实现 起 来 有 点 难度 。 


新 一 代 的 GC 技术 基于 “经 过 一 段 时 间 后 依然 存活 的 对 象 有 可 能 一 直 存 活 
下 去 ”的 经 验 ， 将 对 象 分 为 不 同 世 代 进 行 管理 。 经 过 一 段 时 间 后 依然 被 
和 
会 很 频 So 


比如 需要 编辑 一 个 很 大 的 文本 时 ， 实 际 需 要 编辑 的 内 容 只 是 全 文 的 一 小 
部 分 ， 但 是 在 简单 实现 的 GC 中 ， 却 要 对 全 部 文本 进行 标记 ， 这 样 会 做 
很 多 无 用 功 。 而 新 一 代 的 GC 避 免 了 这 样 的 无 用 功 ， 缩 短 了 对 于 GC 来 说 
很 重要 的 时 间 ， 提 高 了 总 体 的 处 理 速度 。 


问题 是 ， 新 生 代 的 对 象 同 老年 代 对 象 转变 的 过 程 中 ， 在 对 象 的 新 生 代 标 
记 被 取消 ， 又 没有 标记 为 老年 代 时 ， 惑 发 生 了 漏 标记 的 情况 。 这 当然 是 
不 允许 的 ， 必 须要 有 对 策 。 


下 面 我 们 再 来 看 一 下 mark-sweep 的 第 二 个 问题 ， 即 进行 标记 (mark) 时 
的 递归 调用 会 消耗 大 量 的 栈 空 间 。 明 明 是 因为 内 存 不 足 才 启动 的 GC， 

但 是 GC 又 消耗 了 大 量 的 栈 空 间 ， 这 让 人 有 种 本 末 倒 置 的 感觉 。 数 据 结 
构 决 定 了 到 底 要 消耗 多 少 栈 空间 ， 像 “将 巨大 的 文件 全 部 读 入 链表 中 ， 

再 进行 一 些 处 理 * 的 程序 ， 可 想 而 知 是 很 简单 的 (特别 是 使 用 脚本 语言 
来 做 ) 。 大 量 的 小 对 象 链接 构成 链表 ， 再 递归 进行 标记 ， 光 是 对 象 的 数 
量 就 足以 占用 大 量 的 栈 空间 了 。 


























我 们 使 用 称 为 链接 反 转 法 的 思考 方式 来 避免 这 个 问题 。 在 标记 对 象 时 ， 
为 了 方便 递归 ， 以 及 在 一 个 对 象 标记 结束 后 能 够 更 容易 返回 到 持 有 它 的 
对 象 ， 我 们 在 栈 中 使 用 局 部 变量 来 记录 已 经 处 理 了 对 象 中 的 哪个 引用 。 
链接 反 转 法 用 下 面 的 方法 实现 在 对 象 内 的 记录 。 


。 按照 对 象 A 一 对 象 B 的 顺 友 进行 标记 ， 在 移动 到 下 一 个 对 象 C 时 ， 将 
对 象 B 中 指向 C 的 引用 指向 A。 
。 每 个 对 象 都 要 增加 成 员 “ 已 经 处 理 了 哪个 引用 ?”。 























补充 知识 “Coping GC 


Coping GC 是 一 种 已 知 的 〈 经 典 的 ) 垃圾 回收 器 实现 方法 。 Coping GC 
有 以 下 策略 〈 如 图 4-10) 。 


。 一 开始 就 创建 一 个 大 的 堆 区 域 ， 并 将 它 一 分 为 二 。 

。 创建 对 象 的 时 候 ， 从 其 中 一 半 的 区 域 划 分 出 内 存 投 入 使 用 。 

。 当 另 一 半 区 域 被 装 满 时 ， 使 用 和 mark-sweep 的 mark 阶 段 相 同 的 方式 
跟踪 对 象 ， 只 将 生存 的 对 象 复制 到 另 一 半 区 域 中 即 可 。 此 时 ， 由 于 
对 象 的 地 址 发 生 了 变化 ， 因 此 需要 维护 指向 它们 的 所 有 指针 。 


。 复制 之 后 ， 将 对 象 复 制 的 目标 区 域 切换 为 创建 对 象 时 使 用 的 区 域 。 
当 这 半边 区 域 被 沪 满 时 ， 再 疝 为 一 半 区 域 复制 ， 如 此 循环 往复 。 


O00 
() P(A) 


把 存活 的 对 象 转移 移动 的 同时 ， 对 象 被 整理 得 
边 8 更 为 紧凑 








图 4-10 Coping GC 


一 目 了 然 ， 这 个 方法 把 最 初 的 内 存 区 域 一 分 为 二 ， 在 一 个 时 间 点 只 使 用 
其 中 的 一 半 ， 故 外 一 半 内 存 束 浪费 了 。 





看 上 去 也 许 是 一 个 效率 极 差 的 方法 ， 但 是 这 个 方法 和 mark-sweep 的 GC 
相 比 有 以 下 优 后 。 


。 复制 对 象 的 同时 进行 压缩 〈compaction) ， 由 此 ， 消 除了 碎片 
Cfragmentation) ， 提 高 了 虚拟 内 存 和 高 速 缓存 的 效率 。 

。 舍弃 了 mark-sweep 的 sweep 过 程 ， 因 此 ， 在 生存 对 象 占 比较 小 的 情 
况 下 效率 较 高 。 


人 碎片 是 指 像 nalloc() 这 样 的 函数 多 次 对 内 存 进 行 申 请 /释放 的 时 候 ， 内 
存 如 图 4-11 所 示 ， 出 现 极 小 且 不 连续 的 空间 的 状态 。 











国 e 使 用 的 区 域 


[| 示 使 用 的 区 域 


像 这 么 小 的 区 域 实际 上 并 不 能 使 用 


图 4-11 碎片 


这 样 一 来 ， 对 象 之 间 存 在 间 隐 的 内 存 区 域 实 际 上 不 能 使 用 ， 就 造成 了 内 
存 的 浪费 。 


* 去 除 这 些 没 用 的 间隙 ， 把 对 象 存储 空间 变 紧凑 的 操作 叫 作 精简 〈compaction) 。 

Coping GC 在 复制 的 时 候 将 这 些 “ 间 际 * 消 除 。 妨 外， 一 边 妃 溯 指 针 一 边 
进行 复制 的 方式 使 得 相互 指向 的 对 象 很 可 能 被 复制 到 临近 的 区 域 。 
此 ， 同 时 使 用 的 对 象 也 很 有 可 能 被 放 在 一 起 ， 并 写 到 虚拟 内 存 的 同一 页 
中 以 减少 翻 页 的 几率 ， 提 升 了 性 能 。 


4.4 其 他 修改 


接 下 来 要 介绍 的 是 crowbar ver.0.2 中 除了 GC 之 外 的 其 他 修改 的 地 方 。 











4.4.1 修改 语法 


对 语法 作 了 如 下 修改 。 


。 数组 一 一 表达 式 之 后 可 以 加 [表达 式 ] 。 
。 图 数 调用 一 一 表达 式 后 面 可 以 加 函数 名 《参数 列表) 。 
。 目 增 / 目 减 一 一 表达 式 后 面 可 以 加 ++ 或 -- 。 


增加 了 很 多 可 以 人 退 加 在 表达 式 后 面 的 语法 。 在 语法 结构 上 引入 了 非 终结 
符 postfix_expression 〈 这 个 名 字 是 从 K&RD 的 附录 C 中 得 来 的 ) 。 








unary_expression 
: postfix expression 
| SUB unary_expression 


2 
postfix expression 
: primary_expression 
/* 引用 数组 元 素 LB，RB 是 “[” 和 “]”*/ 
| postfix expression LB expression RB 
/* 调用 函数 */ 
| postfix expression DOT IDENTIFIER LP argument list RP 
| postfix expression DOT IDENTIFIER LP RP 
/* 自 增 ， 自 减 */ 
| postfix expression INCREMENT 
| postfix expression DECREMENT 












































了 





句柄 LB 和 RB 是 Left Bracket 和 Right Bracket 的 简写 ， 分 别 代 表 “[ ”和 “] 


O 


根据 这 个 语法 结构 创建 的 结构 体 如 下 所 示 〈crowbar.h) 。 因 为 都 是 表达 
式 ， 所 以 都 加 入 到 了 Expression 结构 体 的 共用 体 中 。 


/* 引用 数组 元 素 */ 
typedef struct { 
Expression *array; 
Expression *index; 
} IndexExpression; 























/# 目 增 / 目 减 */ typedef struct { Expression *operand; } 
IncrementOrDecrement; 























/* 调用 函数 */ 

typedef struct { 
Expression *expression; 
char *identifier; 
ArgumentList *argument; 


} MethodCallExpression; 


4.4.2 ”函数 的 模拟 


crowbar ver.0.2 的 数组 配备 了 下 和 面 这 些 “ 像 函数 一 样 的 函数 ”。 


# 给 数组 增加 元 素 
a.add(3); 


# 取得 数组 的 大 小 


size = a.sizel(); 





# 改变 数组 的 大 小 


a.resize(10); 





另外 ，《“ 顺 便 ) 也 给 字符 串 添加 了 函数 。 


符 串 的 长 度 
'.length(); 








之 所 以 说 起 函数 的 “模拟 ”"， 是 因为 现在 在 crowbar 中 还 没有 为 类 型 (或 者 





对 象 ) 分 配 函 数 的 通用 方法 。book _ver.0.2 的 实现 虽说 属于 偷工减料 ， 
和 处 理 得 还 不 错 。 (截取 目 evalc， 见 代 
码 请 单 4-6。) 


代码 清单 4-6 eval_method_call_expression() 





static void 
eval method call expression(CRB_Interpreter *inter, CRB LocalEnvironment *e 


{ 


CRB_Value *left; 

CRB_ Value result; 

CRB_Boolean error flag = CRB_FALSE; 

eval expression(inter, env, expr->u.method call expression.expression); 
left = peek stack(inter, 0); 


if (left->type == CRB_ ARRAY VALUE) { 
if (!strcmp(expr->u.method call expression.identifier, "add")) { 
CRB_Value *add; 


check method argument count(expr->line_number, 
expr->u.method call expression 
.argument, 1); 
eval expression(inter, env, 
expr->u,method_ call expression.argument 
->expression); 
add = peek stack(inter, 0); 
crb_array_add(inter, left->u.object, *add); 
pop_value(inter); 
result.type = CRB_NULL_VALUE ; 
} else if (!strcmp(expr->u.method call expression.identifier, 
"size")) { 
check_ method argument count(expr->line_number, 
expr->u.method call expression 
.argument，6) 
result.type = CRB_INT_VALUE ; 
result.u.int value = left->u.object->u.array.size; 
} else if (!strcmp(expr->u.method call expression.identifier, 
"resize")) { 
CRB_Value new size; 
check_ method argument count(expr->line_number, 
expr->u.method call expression 
.argument, 1); 
eval expression(inter, env, 
expr->u.method call expression.argument 
->expression); 
new_size = pop_value(inter); 
if (new size.type != CRB_ INT VALUE) { 
crb_runtime error(expr->line number., 
ARRAY_RESIZE_ARGUMENT_ERR， 
MESSAGE ARGUMENT_END); 
} 
crb_array_resize(inter, left->u.object, new size.u.int value); 
result.type = CRB_NULL_VALUE ; 
} else { 
error flag = CRB_TRUE; 


} 


} else if (left->type == CRB_STRING VALUE) { 
if (!strcmp(expr->u.method call expression.identifier, "length")) { 
check_ method argument count(expr->line_number, 
expr->u.method call expression 
.argument，6) 
result.type = CRB_INT_VALUE ; 
result.u.int value = strlen(left->u.object->u.string.string); 
} else { 
error flag = CRB_TRUE; 


} 


} else { 
error flag = CRB_TRUE; 


} 
if(error flag) { 
crb_runtime error(expr->line number, NO_SUCH METHOD_ERR, 

STRING MESSAGE ARGUMENT, "method name", 
expr->u,method call expression.identifier., 
MESSAGE ARGUMENT_END); 

} 

pop_value(inter); 

push_value(inter, &result); 





说 点 题 外 话 ， 最 初 在 获取 数组 元 系数 的 时 候 使 用 的 是 get_size() ， 作 
为 一 个 getter 函 数 ， 为 了 统一 性 着 想 ， 名 字 理 所 当然 是 get_xxx()。 但 





是 ， 考 虑 到 这 个 函数 使 用 频 紧 ,并 且 经 第 要 放 在 for 语句 中 使 用 ， 函 数 
的 名 字 如 果 太 长 使 用 起 来 不 太 方 便 ， 因 此 还 是 取 名 为 size() 了 。 


我 常常 在 想 ， 虽 然 统一 性 很 重要 ， 但 是 方便 性 一 样 重要 。 不 论 是 制作 语 
言 还 是 程序 库 ， 要 想 兼 顾 这 两 个 方面 还 真是 不 容易 。 

不 过 ， 取 得 数组 大 小 为 什么 不 是 只 用 length 就 可 以 了 ， 而 要 用 函数 
呢 ? 取 字符 串 长 度 时 用 的 是 length() ， 而 Vector 和 ArrayList 这 样 
取 大 小 的 为 什么 用 的 是 size() 呢 ? 我 想 这 只 是 为 了 兼容 之 前 的 内 容 而 
产生 的 不 统一 。 


4.4.3 左 值 的 处 理 
在 一 般 的 表达 式 中 ， 一 个 变量 表示 该 变量 储存 的 值 。 比 如 ， 将 5 赋值 给 a 


， 当 表达 式 中 的 a 蔡 换 为 5 时 表达 式 的 结果 保持 不 变 。 但 是 ， 变 量 在 赋 
值 的 左边 时 ， 此 时 将 


a = 10; 





























征 行 不 通 的 。 总 之 ， 变 量 在 赋值 语句 的 左边 时 ， 变 量 代 表 的 不 是 它 所 储 
存 的 值 ， 而 是 储存 值 的 地 方 〈 即 变量 的 内 存 地 址 ) ， 我 们 称 其 为 左 值 


(left value) 。 


book_ver.0.1 中 ， 赋 值 语句 的 左边 只 能 放 变 量 。 赋 值 语句 的 语法 规则 如 
下 上 所 示 : 


expression 
: IDENTIFIER ASSIGN expression 








但 是 在 引入 了 数组 之 后 ， 赋 值 语句 的 左边 就 可 以 写 稍微 复杂 一 点 的 表达 
式 了 。 
# 给 二 维 数组 a 赋值 ， 其 中 一 个 下 标 为 以 b[i] 为 参数 


# 调用 函数 func() 后 的 返回 值 
a[lij[func(b[i])] = 5; 



































当然 ， 使 用 老 的 语法 结构 不 能 对 应 这 种 情况 ， 于 是 ， 我 们 将 语法 结构 改 
写成 下 面 这 样 。 
expression 

: postfix expression ASSIGN expression 





左边 变 成 了 postfix_expression ， 而 现在 能 成 为 赋值 语句 的 对 象 的 ， 
只 有 primary_expression (变量 名 ) 和 postfix_expression 〈 数 


组 元 率 ) 了。 


接着 ， 在 eval.c 中 首先 计算 右边 的 值 ， 然 后 调用 get_lvalue() 函数 取得 
左边 表达 式 的 地 址 ， 详 见 代 码 清单 4-7。 并 且 ， 这 里 调用 的 
peek_stack() 函数 会 在 不 清除 栈 的 情况 下 获取 值 ， 这 样 一 来 右边 的 值 
会 作为 赋值 表达 式 整 体 的 值 残留 在 栈 中 ， 也 是 件 好 事 。 


代码 清单 4-7 eval_assign_expression 


static void 








eval assign expression(CRB_ Interpreter *inter, CRB LocalEnvironment *env， 
Expression *left, Expression *expression) 


{ 


CRB Value *src; 
CRB_Value *dest; 








/* 首先 计算 右边 值 */ 
eval expression(inter, env, expression); 
src = peek stack(inter, 0); 








/* 取得 左边 的 地 址 */ 
dest = get lvalue(inter, env, left); 
*dest = *src; 








那么 ，eval assign expression() 中 调用 的 函数 get_ lvalue() 又 
是 什么 样子 昵 ? 请 见 代 码 清单 4-8。 将 标识 符 和 数组 分 开 进 行 处 理 ， 如 
果 是 数组 的 话 ， 可 以 利用 get_array_element_lvalue() 〈 见 代码 清 
单 4-9) 函数 返回 数组 元 素 对 应 的 地 址 。 


代码 清单 4-8 ”get_lvalue() 


CRB Value * 
get lvalue(CRB_ Interpreter *inter, CRB_ LocalEnvironment *enyv, 
Expression *expr) 
{ 
CRB_Value *dest; 


if (expr->type == IDENTIFIER EXPRESSION) { 
dest = get identifier lvalue(inter, env, expr->u.identifier); 
} else if (expr->type == INDEX EXPRESSION) { 


dest = get array element lvalue(inter, env, expr); 
} else { 
crb_runtime error(expr->line number, NOT_LVALUE_ ERR, 
MESSAGE ARGUMENT_END); 


} 


return dest; 





代码 清单 4-9 get_array_element_lvalue() 


| 


CRB_Value array 
CRB _ Value index; 


/* 运算 [] 左 边 的 表达 式 */ 

eval expression(inter, env, expr->u.index expression.array); 
/* 运算 [] 中 的 表达 式 */ 

eval expression(inter, env, expr->u.index expression.index); 
/* 取得 两 个 变量 的 值 */ 

index = pop_value(inter); 

array = pop_value(inter) 














/* 检查 数据 类 型 */ 
if (array.type != CRB_ ARRAY VALUE) { 
crb_runtime error(expr->line number, INDEX OPERAND NOT_ARRAY_ERR, 
MESSAGE ARGUMENT_END); 
} 
if (index.type != CRB_INT VALUE) { 
crb_runtime error(expr->line number, INDEX OPERAND NOT_INT_ERR, 
MESSAGE ARGUMENT_END); 
} 


/* 检查 下 标 范围 */ 
if (index.u.int value < 6 
|| index.u.int value >= array.u.object->u.array.size) { 
crb_runtime error(expr->line number, ARRAY _INDEX_OUT_OF_BOUNDS_ERR 
INT_ MESSAGE ARGUMENT, 
"size", array.u.object->u.array.size, 
INT_ MESSAGE ARGUMENT, "index", index.u.int value, 
MESSAGE ARGUMENT_END); 








} 
/* 返回 地 址 */ 


return &array.u,object->u.array.array[index.u.int value]; 





男 外 ， 在 没有 左 值 的 情况 下 ， 取 得 数组 元 素 值 的 引用 时 调用 的 浮 
数 eval_index_expression()， 它 的 内 部 也 使 用 了 


get array_element lvalue().。 





static void 
eval index expression(CRB Interpreter *inter, 
CRB_LocalEnvironment *env, Expression *expr) 


CRB_Value *left; 


left = get array element lvalue(inter, env, expr); 





自 增 / 自 减 运算 符 也 同样 适用 于 get_lvalue() 取得 目标 变量 的 地 址 。 


push_value(inter, left); 





4.4.4 创建 数组 和 原生 函数 的 书写 方法 


前 面 已 经 说 过 ， 用 原生 函数 new_array() 可 以 创建 常量 数组 {1，2， 


3} 。 该 原生 函数 的 定义 请 见 代 码 清单 4-10。 


代码 清单 4-10 new_array() 





/* 递归 调用 子 例 程 */ 

CRB_Value 

new_array_sub(CRB_Interpreter *inter, CRB_ LocalEnvironment *enyv, 
int arg count, CRB Value *args, int arg_ idx) 


{ 





CRB_ Value ret; 
int size; 
int i; 


if(args[arg_ idx]l.type != CRB_INT VALUE) { 
crb_runtime error(8@, NEW ARRAY ARGUMENT_TYPE_ERR, 
MESSAGE ARGUMENT_END); 
} 


size = args[arg idx].u.int value; 


ret.type = CRB_ ARRAY VALUE,; 
ret.u.object = CRB_ create array(inter, env, size); 


if (arg idx == arg count-1) { 
for (i = 68; i < size; i++) { 
ret.u.object->u.array.array[il].type = CRB_NULL VALUE; 
} 
} else { 
for (i = 68; i < size; i++) { 
ret.u.object->u.array.array[il] 


= new_array_sub(inter, env, arg count, args, arg idx+1); 


} 


return ret; 


} 


/* 原生 函数 本 体 */ 

CRB_Value 

crb_nv_new array_proc(CRB_ Interpreter *inter preter， 
CRB_LocalEnvironment *env, 
int arg count, CRB Value *args) 





CRB_Value value; 
if (arg count < 1) { 
crb_runtime error(@, ARGUMENT TOO_ FEW_ERR, 


MESSAGE_ARGUMENT_END ) ; 
} 


value = new array_sub(interpreter, env, arg count, args, 0); 


return value; 





首先 ， 这 次 修改 在 原生 函数 的 参数 中 增加 了 CRB_LocalEnvironment 


上 面 代 码 中 的 处 理 只 是 递归 地 创建 了 数组 的 数组 ， 数 组 所 需 内 存 空 间 的 
开辟 工作 由 CRB_create_array() 完成 。 男 外 ， 为 原生 函数 增加 了 形式 
参数 ， 从 而 使 CRB_LocalEnvironment 可 以 作为 参数 传递 进去 。 那 

么 ，CRB_LocalEnvironment 用 途 是 什么 呢 ? 在 创建 多 维 数组 的 时 

候 ， 会 多 次 调用 new_array_sub() 开辟 内 存 空 间 。 如 果 GC 在 进行 上 述 
操作 的 中 途 启 动 的 话 ， 束 可 能 会 立刻 将 刚 分 配 好 的 数组 释放 邱 。 因 此 ， 
为 了 把 在 函数 中 创建 的 对 象 标记 为 不 回收 的 目标 ， 我 们 需要 把 
CRB_LocalEnvironment 传递 到 函数 中 。 





具体 来 说 ，CRB_LocalEnvironment 的 成 员 ref_in_native_method 
中 保存 了 在 原生 函数 中 创建 的 对 象 ( 具 体 请 参考 4.2.4 节 的 定义 )。 


ne 的 定义 如 下 ， 它 以 链表 的 形式 保存 着 指 问 对 象 
各 数组。 








typedef struct RefInNativeFunc tag { 
CRB_Object *object; 
struct RefInNativeMFunc tag *next; 


} RefInNativeFunc ; 


这 种 设计 的 问题 在 于 ， 创 建 于 原生 函数 内 部 的 对 象 在 函数 结束 前 不 能 被 
释放 。 如 果 在 原生 函数 中 存在 大 量 多 次 循环 时 ， 就 会 出 现 很 多 对 象 在 创 
建 后 立即 被 丢弃 的 现象 。 有 些 对 象 在 函数 结束 前 不 能 被 释放 ， 由 此 造成 
了 内 存 空 间 的 浪费 。 但 是 ， 如 果 只 是 在 原生 函数 内 部 使 用 的 对 象 ， 那 么 
比 起 使 用 麻烦 的 crowbar 对 象 ， 使 用 C 的 malloc() 更 为 方便 。 因 此 ， 实 
际 情况 下 像 上 面 那 样 的 问题 并 不 多 见 ， 所 以 还 是 维持 了 这 样 的 设计 。 


4.4.5 ”原生 指针 类 型 的 修改 

crowbar book_ver.0.1 的 原生 指针 类 型 的 值 (CRB_Value 结 构 体 ， 中 包含 
了 void* 的 指针 和 数据 类 型 的 标识 信息 。 在 3.3.9 节 中 提 到 过 ， 这 个 方法 
在 “一 个 地 方 用 fclose0 关 闭 了 文件 指针 ， 可 能 还 会 在 另 一 个 地 方 被 使 

用 ”的 情况 下 会 存在 问题 。 


在 book_ver.0.2 中 ， 原 生 指 针 类 型 的 值 不 再 指向 实际 的 原生 对 象 (FILE 
结构 体 等 ) ， 而 是 在 中 间 加 入 了 一 个 crowbar 对 象 进行 “隔离 ”( 如 图 4- 


12). 8 
原生 指针 类 型 的 变量 | | | 


CRB _ Object 














FILE 结构 体 等 的 对 象 


图 4-12 原生 指针 的 构造 (修改 版 ) 


运用 上 面 的 方法 ， 例 如 在 调用 fclose() 的 时 候 ， 将 CRB_0bject 中 指 
向 原生 对 象 的 指针 同时 置 为 NULL ， 就 能 够 立刻 判断 出 文件 已 被 关闭 。 
也 许 有 人 会 想 ， 在 以 前 的 做 法 中 ， 没 有 将 CRB_Value 直接 指向 FILE 结 
构 体 ， 而 是 在 它们 中 间 夹 了 一 个 别 的 结构 体 ， 不 是 也 起 到 同样 的 作用 了 
吗 ? 假设 真 的 这 么 做 了 ， 那 么 在 对 这 个 结构 体 进 行 free() 的 时 机 就 又 
成 了 一 个 问题 。 何 不 借 着 实现 GC 的 机 会 ， 让 它们 中 间 夹 一 个 可 以 作为 
GC 目标 的 对 象 呢 ? 


顺便 说 一 下 ， 虽 然 这 样 一 来 就 可 以 实现 针对 原生 指针 类 型 的 终结 

Cfinalizer) 了 (GC 在 释放 原生 指针 类 型 的 对 象 时 调用 之 前 注册 的 函数 
就 可 以 了 ) ， 但 是 由 于 mark-sweep 型 的 GC 中 终结 器 “不 知 何 时 启动 ””， 
此 使 用 crowbar 的 用 户 最 好 不 要 编写 依赖 于 终结 器 的 程序 。 但 是 对 于 一 
门 编程 语言 来 说 ， 提 供 终 结 器 也 不 是 什么 坏事 。 








第 5 音 ” 中 文 文 择 和 Unicode 





5.1 中 文 支持 策略 和 基础 知识 





在 第 4 章 中 提 到 的 crowbar 是 不 支持 中 文 的 。 一 个 标榜 着 像 Perl 一 样 的 语 
言 ， 怎 么 可 以 不 能 正确 处 理 含 有 本 地 语 的 中 文 文本 文件 呢 ? 本 章 开 始 ， 
我 们 就 来 看 一 看 汉化 的 处 理 方式 。 








5.1.1 现存 问题 
看 了 “在 第 4 章 中 提 到 的 crowbar 是 不 支持 中 文 的 ”这 人 句 话 后 ， 肯 定 有 人 会 








问 :“ 这 是 真 的 吗 ? ” 
举 个 例子 吧 。 


print(" 你 好 \n"); 


这 行 代码 在 大 多 数 环境 下 应 该 可 以 正常 运行 。 但 crowbar 处 理 器 其 实 并 
没有 意识 到 字符 编码 的 问题 ， 只 不 过 是 直接 输出 了 一 个 含有 字符 串 和 常量 
的 字 节 序列 ， 根 本 不 能 说 它 文 持 中 文 。 具 体 有 以 下 这 些 问题 。 


1. GB2312 环 境 下 的 0x5C 问 题 
现在 的 crowbar 代 码 是 采用 GB2312 编 码 保存 的 ， 因 此 可 能 会 因为 特殊 字 
符 而 引起 误 动 作 。 有 具体 来 说 就 像 中 文 的 “ 汝 ?和 “ 明 ”。 


比如 ,“ 师 ”的 GB2312 编 码 是 0x955C 。 第 二 个 字 节 的 5C， 是 反 斜 杠 的 编 
码 ， 这 会 导致 字符 串 常量 “ 师 ?” 被 编码 成 “"” 和 “组 成 的 字符 串 。 这 里 只 
是 在 说 字符 串 常量 的 话题 ，crowbar 程 序 在 读 取 来 自 外 部 文件 和 标准 输 
入 的 字符 串 时 不 会 受到 影响 。 


2. length0 函 数 

我 们 在 crowbar book_ver.0.2 中 为 字符 串 引 入 了 1length() 函数 。 现 在 的 
这 个 函数 在 执行 代码 "北京 欢迎 您 ".length() 时 会 返回 10。 这 种 设计 
与 C 的 strlen() 相同 ， 但 这 样 的 设计 在 crowbar 中 几乎 派 不 上 用 场 。“ 北 
京 欢 迎 您 "是 5 个 字 ， 调 用 length() 函数 就 应 该 返回 5 才 对 在 C 语 言 
中 ， 很 多 情况 下 要 有 很 强 的 “ 字 节 数 ”* 意 识 ， 因 此 strlen() 的 设计 不 得 
不 说 还 是 挺 方 便 的 )。 


现在 的 crowbar 中 ， 字 符 串 只 有 length() 函数 ， 今 后 还 要 引入 截取 字符 
串 的 substr() 等 函数 ， 在 那个 时 候 这 个 问题 就 更 为 重要 了 。 


既然 现在 crowbar 的 实现 有 以 上 的 问题 ， 那 怎么 解决 好 呢 ? 想 要 考虑 请 
楚 这 个 问题 ， 需 要 很 多 基础 知识 。 下 面 我 们 就 对 以 下 几 项 进行 简单 说 
明 。 


























5.1.2” 宽 字符 《〈 双 字 节 ) 串 和 多 字 贡 字符 串 





> 十 Lo Ar 


宽 字 符 (wide character) 和 多 字 节 字符 (multibyte character) 的 说 法 


源 于 C 语 言 的 用 语 。 


多 数 人 在 编写 C 语 言 程 序 的 时 候 使 用 char 数组 来 表示 字符 串 。 可 

是 ，char 只 能 存储 1 个 字 节 (通常 是 8 位 ，， 存 不 下 一 个 中 文 的 字符 。 
因此 ， 中 文字 符 的 存储 都 是 使 用 GB2312 (EUC， 即 扩展 UNIX 编 码 ， 
Expanded UNIX code) ”、GBK、UTF-8 等 编码 。 这 种 用 多 个 字 节 保存 
一 个 字符 的 字符 串 形式 称 为 多 字 节 字符 串 。 


*EUC-CN 是 GB2312 最 常用 的 表示 方法 。 浏 览 器 编码 表 上 的 GB2312， 通 常 都 是 指 EUC-CN 表 示 


法 。 
但 是 ， 这 种 保存 方式 存在 一 个 问题 ， 即 不 从 char 数组 的 开头 开始 看 ， 
就 找 不 到 哪里 是 字符 的 分 割 点 。C 语 言 使 用 str[i] 获取 字符 串 中 一 个 
字符 时 ， 也 不 知道 要 取 的 是 一 个 英文 数字 字符 还 是 中 文字 符 的 第 一 个 字 
节 或 第 二 个 字 节 。 在 这 种 情况 下 ， 如 果 要 制作 一 个 编辑 器 ， 在 按 退 格 
(backspace) 键 的 时 候 ， 如 果 只 是 删除 了 中 文字 符 的 第 二 个 字 节 ， 那 么 
后 面 跟 着 的 内 容 就 全 都 变 成 乱码 了 。 实 际 上 ， 以 前 的 很 多 编辑 器 都 有 这 


个 问题 。 


GB2312 的 @x5C 问题 大 概 也 是 这 个 原因 。 如 果 只 看 一 个 中 文字 符 的 第 二 
个 字 节 ， 就 会 被 误 认为 是 “^\*”。 


只 保存 8 位 的 char 类 型 显然 不 能 满足 需求 ， 要 是 有 一 个 内 存 空间 足够 的 
类 型 用 来 保存 中 文 等 字符 就 好 了 。C 语 言 中 的 wchar_t 类 型 ， 就 是 一 个 
有 足够 内 存 空间 的 类 型 〈 或 者 说 是 我 们 期 望 的 类 型 ) 。 


以 wchar_t 数组 表示 一 个 字符 串 的 方式 叫 作 宽 字符 串 。 正 如 我 们 期 竺 
的 ，str[i] 可 以 取出 这 个 字符 串 中 第 it1 个 字符 ”。 

* 为 什么 不 是 取出 第 个 字符 呢 ?” 因 为 C 的 数组 下 标 从 0 开始 。 

在 C 语 言 的 标准 中 ， 并 没有 规定 wchar_t 到 底 是 几 个 字 节 ， 以 及 
wchar 七 在 存储 文字 时 用 什么 编码 格式 。 在 基于 UNIX 的 gcc 中 执 

行 sizeof(wchar _t) 的 话 返 回 4， 在 Windows (MinGW 的 gcc 或 


VC++ 等 ) 中 返回 2。 男 外 ， 在 C 代 人 码 中 如 琳 想 要 定义 客 字 符 和 客 字 符 串 
的 话 ， 宽 字符 使 用 L'a" ， 筑 字符 串 使 用 L"abc" 。 


宽 字 符 串 L"abc" 在 wchar_t 是 4 字 节 的 环境 中 ， 需 要 消耗 16 字 市 的 内 存 






































空间 《最 后 的 Null 字 符 也 是 4 个 字 节 ) 。 我 们 暂且 不 说 这 种 存储 方式 进 
行 类 型 转换 的 时 候 会 发 生 编译 错误 ， 存 储 在 内 存 上 的 L"abc" ， 以 字 节 
为 单位 去 看 的 话 中 间 可 能 会 出 现 很 多 0， 会 被 误 判 为 字符 串 末尾 的 Null 
字符 。 因 此 ， 宽 字符 串 不 能 使 用 strcpy() 和 strcmp() 之 类 的 函数 ， 
必须 要 用 wcscpy() 代 葵 strcpy() ， 用 wcscmp() 代替 strcmp() 。 





补充 知识 、wchar_t 肯 定 能 表示 1 个 字符 吗 ? 


我 们 在 5.1.2 市 中 说 到 ，wchar_t 类 型 有 足够 的 内 存 空间 保存 中 文 等 字符 
(或 者 说 是 我 们 想 要 的 类 型 )。 可 能 会 8 人 不 满意 这 种 模棱两可 的 说 
法 ， 那 么 束 让 我 们 来 确认 一 下 C 语 言 标 准 中 的 定义 吧 。 


在 IOS C99 〈ISO/9899:1999) 中 关于 wchar t 的 最 小 内 存 空间 记载 如 下 
(C710.3Y 3 


wchar_t 《参考 7.17 节 ) 用 市 符号 整数 类 型 定义 的 情况 
下 ，WCHAR_MIN 的 值 不 得 小 于 -127，WCHAR_MAX 的 值 不 得 大 于 127。 


wchar 七 用 无 符号 整数 类 型 定义 的 情况 下 ，WNCHAR_MIN 的 值 必须 是 
0，WCHAR_MAX 的 值 不 得 大 于 255。 





WCHAR_MIN 和 WCHAR_MAX ， 顾 名 思 义 是 wchar_t 最 大 值 和 最 小 值 的 常 
量 。 总 之 ， 在 标准 中 保证 了 wchar_t 的 大 小 只 有 1 个 字 节 ， 但 是 从 
wchar _t 的 定义 本 身 来 看 ， 规 定 如 下 : 


wchar_t 值 的 范围 要 能 够 容纳 处 理 器 所 支持 的 区 域 设 置 中 最 大 的 扩展 
字符 集 (包含 全 部 编码 要 素 的 整数 类 型 )。 
至 少 在 我 看 来 这 句 话 的 意思 是 ，wchar_t 的 大 小 必须 能 存 下 所 支持 字符 
集 的 任何 一 个 字符 。 


但 是 ， 实 际 上 Windows 的 wchar_t 只 有 两 个 字 节 ， 所 以 不 能 表示 超过 
UCS2 范 围 的 字符 。 因 此 ， 至 少 在 Windows 中 ，wchar _t 类 型 不 能 表示 
一 个 字符 (实际 上 Windows 的 宽 字 符 串 是 UTF-16)〉 。 可 见 世 上 没有 最 理 
想 的 事 。 


5.1.3 ”多 字 市 字符 / 宽 字 符 之 间 的 转换 函数 群 











字符 的 表示 方法 有 多 字 节 字符 和 宽 字符 两 种 ， 具 体内 容 在 前 面 的 小 节 已 
经 介绍 过 了 ， 相 信 大 家 也 应 该 清楚 了 它们 的 使 用 方法 。 


宽 字 符 串 把 字符 保存 在 wchar_t 中 ， 因 此 前 面 说 到 的 制作 编辑 器 、 为 字 
符 串 添加 length() 和 substr() 函数 都 不 成 问题 。 可 是 ， 像 英文 数字 
这 种 平时 只 需要 1 个 字 节 表示 的 字符 ， 在 这 里 也 需要 占 

用 sizeof(wchar_t) 大 小 的 内 存 空间 了 。 


因此 ， 在 保存 文件 的 时 候 ， 不 推荐 使 用 宽 字 符 形 式 。 宽 字符 是 C 语 言 的 
概念 ， 显 而 易 见 文件 和 编程 语言 是 独立 的 。 之 前 , “用 同样 的 字 节 数 来 
表示 所 有 的 字符 ”这 种 想法 ， 在 编程 时 处 理 字 符 串 是 很 方便 的 ， 但 是 作 
为 文件 处 理 方式 的 时 候 就 不 再 占据 优势 了 ， 反 而 只 会 单纯 地 占用 容量 ” 
。 于 是 ，crowbar 的 处 理 器 有 必要 进行 如 下 的 变化 。 


* 在 存储 容量 的 价格 方面 ， 考 虑 到 内 存 要 比 硬 各 贵 ， 节 约 内 存 空 间 也 是 理所当然 的 。 


。 从 文件 和 标准 输入 中 输入 字符 串 时 ， 从 多 字 市 字符 转换 为 宽 字 符 。 
。 向 文件 和 标准 输出 中 输出 字符 串 时 ， 从 宽 字 符 转 换 为 多 字 节 字符 。 


这 样 一 来 ， 现 在 的 状态 就 成 了 “在 crowbar 外 部 使 用 多 字 节 字符 ， 内 部 使 
用 宽 字 符 ”。 在 C 语 言 中 可 以 使 用 以 下 的 函数 群 进行 转换 操作 。 这 些 函 数 
是 以 ISO C95 标 准 进 行 了 标准 化 的 函数 群 ， 这 些 函 数 不 仅 名 字 具 有 标准 
性 ， 十 分 好 记 ， 详 细 的 设计 也 编 成 了 手册 可 在 线 阅读 。 在 这 里 ， 我 只 对 
它们 的 基本 功能 进行 说 明 。 


。 多 字 市 字符 问 觉 字符 转换 



























































o int mbtowc(wchar 七 *pwc, const char *s, size 七 








n); 

从 多 字 节 字符 的 字 节 序列 中 读 取 出 代表 一 个 字符 的 字 节 (最 大 
n 字 节 ) ， 将 转换 后 的 宽 字符 的 指针 保存 在 变量 pwc 中 。 功 能 
和 名 字 一 样 ，mb (多 字 节 字符 ) 转换 为 wc 〈 宽 字符 ) 。 


o Size 七 mbrtowc(wchar t *pwc, const char *s, 
size t n, mbstate t *ps) 
在 C 语 言 的 规格 书 中 将 多 字 节 字符 定义 《5.2.1.2) 为 “可 以 携 禹 
依赖 于 转换 状态 的 表现 形式 ”。 
利用 换 码 序列 (escape sedquence) 这 种 特殊 的 字 节 序列 进行 编 








1 这 林 








码 间 的 切换 ， 当 文字 中 出 现 了 换 码 序列 时 ， 它 之 后 的 内 容 就 是 
中 文 ， 而 在 中 文中 换 码 序列 之 后 的 内 容 就 是 ASCII 字 符 。 

用 这 种 方式 将 茶 个 多 字 节 字符 转换 为 览 字符 时 ， 必 须要 知道 它 
现在 是 什么 状态 。 

如 果 使 用 mptowc() 从 开头 对 多 字 市 字符 串 进 行 处 理 的 话 ， 那 
么 mbtowc() 会 在 内 部 记 住 当前 的 状态 ， 并 且 根 据 状态 转换 出 
适当 的 宽 字 符 。 可 能 很 多 人 会 觉得 这 样 就 已 经 很 好 了 。 但 是 ， 
如 末 这 段 使 用 了 mbtowc() 的 转换 程序 用 来 进行 一 个 多 线程 的 
字符 串 处 理 时 ，mbtowc() 的 这 种 “ 记 状 态 ” 的 机 制 就 被 破坏 


Ta 

于 是 mbrtowc() 将 保存 当前 状态 的 内 存 空间 交 给 了 调用 者 。 这 
个 空间 的 类 型 是 mbstate tt 。 在 最 初 调用 的 时 候 ，mbstate 七 
可 以 使 用 memset() 等 函数 进行 清 零 。 

函数 的 名 字 是 mbrtowc() ， 中 间 加 了 一 个 r 。 我 想 这 个 r 可 能 
是 reentrant 的 r 。 

















size 七 mbstowcs(wchar 七 *dest, const char *src, 
size t len) 

上 述 两 个 函数 是 用 来 转换 文字 的 ， 这 个 函数 可 以 将 整个 字符 串 
一 起 处 理 。 于 是 函数 名 字 在 mb 和 wc 后 面 都 加 上 了 s 。 

函数 将 多 字 节 字符 串 src 转换 为 宽 字 符 串 ， 字 符 最 大 为 n 字 
节 ， 结 果 保 存在 dest 指针 中 。 函数 的 返回 值 会 返回 写 入 

到 dest 的 宽 字 符 个 数 〈 不 包含 结尾 的 L'\8' ) ， 如 果 只 想 知 
道 宽 字 符 的 字符 个 数 的 话 ， 经 常 使 用 的 方法 是 给 dest 传 NULL 
并 获取 返回 值 。 





size 七 mbsrtowcs(wchar t *dest, const char **src, 
size 七 lan，mbstate tt *ps) 和 转换 单个 字符 的 函数 一 
样 ， 加 上 Fr 就 变 成 了 reentrant 厂 。src 变 成 了 指针 的 指针 ， 是 
因为 要 在 转换 过 程 中 将 src 移动 到 下 一 个 要 转换 的 多 字 节 的 开 
头 ! 。 


fF 做 是 为 了 对 应 多 线程 的 情况 。 一 一 译 者 注 











。 宽 字 符 同 多 字 市 字符 转换 


o int wctomb(char *s, wchar t wc) 


可 见 ， 这 是 反 过 来 将 wc 转换 为 mb 的 函数 ， 也 就 是 将 一 个 宽 字 





和 从 转换 为 多 字 市 字符 的 字 节 序列 的 函数 。 





o size t wcrtomb(char *s, wchar t wc, mbstate 七 
米 
ps) | 
加 上 r 束 是 reentrant 挨 。 


o size t wcstomb(char *dest, const wchar 七 *src, 
size 七 n) 


加 上 s 就 是 字符 串 版 。 


o size t wcsrtombs(char *dest, const wchar 七 **src, 
size t len, mbstate t *ps) 


s 和 Fr 都 加 上 ， 变 成 了 字符 串 版 的 reentrant 版 。 


为 了 能 够 使 用 这 些 函 数 ， 在 Windows (MinGW) 中 编译 时 必须 配置 启动 
项 -lmsvcp66 。 


5.2  _ Unicode 


前 面 章节 已 经 做 了 简要 说 明 ， 现 在 的 Linux 和 Windows 中 ， 宽 字符 大 多 
使 用 的 是 Unicode。 作 为 crowbar 处 理 器 ， 如 果 想 要 制作 一 个 转换 宽 字 符 
和 多 字 节 字符 的 程序 库 ， 可 以 不 用 考虑 实际 的 wchar_t 中 存储 的 字符 到 
故 是 什么 字符 编码 。 但 是 ， 作 为 一 名 程序 员 是 不 能 回避 Unicode 问 题 
的 ， 所 以 本 章 将 对 此 进行 介绍 。 














5.2.1 _ Unicode 的 历史 
Unicode 是 由 Xerox 提 出 ， 并 由 Unicode Consortium 制 定 的 字符 编码 。 


Unicode 最 初 的 内 容 是 “用 16 位 表示 全 世界 所 有 的 字符 ”， 所 以 ， 中 国 、 
日 本 、 娃 国 使 用 的 汉字 只 要 字形 是 一 样 的， 都 会 分 配 到 同样 的 字符 编码 
CUnicode 中 正确 的 叫 法 应 该 是 码 位 ， 即 code point) 。 和 截止 到 1990 年 12 
月 的 最 终 草 案 ， 汉 字 分 配 了 0x4000~0xE7FF， 共 18739 个 字符 。 


在 中 国 ，GB2312 (EUC-CN) 能 表示 的 汉字 总 共有 6763 字 ， 由 此 得 知 ， 
在 Unicode 出 现 之 前 使 用 普通 PC 可 以 处 理 的 汉字 ， 全 部 可 以 用 Unicode 表 
示 。 但 是 ， 考 虑 到 经 常 有 一 些 人 名 或 者 古 汉 语 中 的 字符 无 法 用 国标 汉字 








表示 ， 因 此 即使 是 18739 个 字 也 不 一 定 够 用 ， 更 何况 这 个 范围 内 还 包 
了 日 本 和 韩国 使 用 的 汉字 ! 。 


1 有 了 时候， 三 个 国家 使 用 的 汉字 即使 字形 相同 也 是 不 一 样 的 ， 因 此 分 配 了 不 同 的 码 位 。 一 一 译 
者 注 


另外 ， 对 于 日 本 人 来 说 ， 假 名 等 分 配 了 0x3000~0x3FFF， 共 4096 个 字 
符 。 假 名 的 字符 很 少 ， 这 个 范围 已 经 足够 了 ， 但 是 韩语 一 个 字符 的 形状 
由 初 声 、 中 声 、 终 声 的 排列 组 合 决 定 ， 初 声 19 种 ， 中 声 21 种 ， 终 声 27 
种 ， 加 上 有 些 字符 没有 终 声 的 情况 ， 一 共有 19 x 21 x (27+1)= 11172 个 
字符 图 。 这 么 多 字符 ，Unicode 当 然 适 应 不 了 了 ” 。 


*1987 年 的 时 候 ， 韩 国 国内 的 标准 KSC 5601 修 订 版 中 韩语 只 有 2350 个 字符 ， 同 一 时 期 的 Unicode 
已 经 包含 了 这 些 字 符 ， 如 果 是 日 常 使 用 的 话 ，16 位 的 Unicode 也 没什么 问题 。 


如 此 一 来 ， 结 果 束 是 在 现 有 的 16 位 Unicode 上 进行 扩充 (现在 是 21 

位 ) ， 以 16 位 为 范围 收录 的 一 套 字 符 作 为 UCS2 (表示 U niversal C 
oded-Character S et 的 2 位 版 进行 标准 化 ， 收 录 不 下 的 所 有 字符 以 4 字 市 
表示 ， 这 就 是 UCS4 。 


> 






























































5.2.2 ”Unicode 的 编码 方式 


如 前 所 述 ，Unicode 本 来 想 用 16 位 来 表示 世界 上 所 有 的 字符 (但 实际 上 
收录 不 下 ) 。 那 么 ， 在 内 存 和 磁盘 中 保存 字符 串 的 时 候 ， 只 能 2 字 市 一 
组 表示 1 个 字符 吗 ? 也 不 一 定 。 


我 们 首先 介绍 一 下 字符 集 (character set) 和 编码 方式 (正确 的 说 法 应 
该 是 字符 符号 化 方式 ) 。 


计算 机 想 要 处 理 字 符 ， 首 先 要 决定 什么 样 的 字符 是 要 处 理 的 对 象 ， 其 次 
就 是 为 这 些 字 符 分 配 编写， 这 就 是 字符 集 。 为 每 个 字符 分 配 的 编写 在 
Unicode 中 称 为 码 位 (code point) 。 例 如 中 文 “ 啊 ”的 码 位 是 0x554A， 记 
作 U+554A。 


但 是 ， 这 些 字符 想 要 在 内 存 或 者 磁盘 上 表示 就 是 男 外 一 人 码 事 了 。 编 码 方 
式 是 指 规定 以 何 种 方式 将 逻辑 上 的 码 位 值 以 字 节 或 位 的 方式 表示 出 来 。 
里 然 很 可 能 某 两 种 编码 方式 的 目标 字符 集 相同 ， 但 因为 编码 方式 和 字符 
在 字符 集中 的 顺序 不 同 ， 因 此 在 内 存 上 的 表现 形式 也 不 同 。 




















Unicode 的 编码 方式 首先 要 考虑 的 是 ，Unicode 是 16 位 的 ， 要 为 一 个 字符 
分 配 2 字 节 ， 这 种 方法 被 称 为 UTF-16 。 


但 是 ， 假 如 使 用 C 语 言 中 2 字 节 的 整数 类 型 (short 等 ) 表示 1 个 字符 ， 内 
存 上 的 表示 方式 会 根据 环境 的 字 节 序 产 生变 化 。 因 此 ，UTF-16 根 据 字 
节 序 的 不 同 分 为 UTF-16BE 〈 大 尾 序 ) 和 UTF-16LE (小 尾 序 ) 两 种 。 中 
文 “ 啊 ”， 用 UTF-16BE 表 示 为 6xB6 6xA1l ， 用 UTF-16LE 表 示 为 6xA1 
6xB6 。 另 外 ， 在 和 其 他 PC 通信 的 时 候 ， 如 果 不 知 道 字 节 序 也 很 麻烦 。 
可 以 在 UTF-16 的 字符 串 开 头 加 上 字 节 序 的 标识 〈 这 种 标识 叫 作 BOM  ， 
即 Byte Order Mark， 值 为 U+FEFF) 。 读 取 带 BOM 的 UTF-16 字 符 串 时 ， 
如 果 第 一 个 字符 是 0xFE 0xFF 就 是 UTF-16BE， 如 果 是 0xFF 0xFE 就 是 
UTEF-16LE。 




















但 是 ，UTF-16 如 果 要 表示 字母 A( 码 位 为 U+6841 ) 也 要 消耗 2 个 字 节 ， 
这 样 在 英语 圈 的 人 《只 使 用 ASCII 的 人 ) 看 来 ， 字 符 串 在 内 存 和 磁盘 上 
的 消耗 突然 变 成 了 原来 的 2 倍 。 而 且 ， 字 符 串 ABC 在 内 存 上 的 表示 方式 
(在 UTF-16BE 的 情况 下 ) 为 6x68 6x41 69x66 6x42 6Xx68 6x43 ， 并 
不 兼容 现存 的 ASCII 编 码 。 


为 了 解决 上 述 问题 ， 出 现 了 UTF-8 。 首 先 ，Unicode 在 0x00~0x7F 的 范围 
内 分 配 了 和 ASCII 编 码 相 同 的 码 位 ， 由 此 ， 在 UTF-8 中 上 述 范 围 的 字符 
可 以 用 1 个 字 节 表示 ， 在 这 之 后 的 0x80~0x7FF 用 2 个 字 节 的 
0xC280~0xDFBF 表 示 ，0x800~0xFFFF 用 3 个 字 节 的 
0xE0A080~0xEFBFBF 表 示 。 用 语言 难以 描述 清楚 ， 还 是 看 图 5-1 吧 。 








到 第 7 位 为 止 QVVVVVVV 

到 第 11 位 为 止 ”110VVVVV 10VVVVVV 

到 第 16 位 为 止 ” 1110VVVV 10VVVVVV 10VVVVVV 

到 第 21 位 为 止 ” 11110VVV 10VVVVVV 10VVVVVV 10VVVVVYV 

到 第 26 位 为 止 ” 111110VV 10VVVVVV 10VVVVVV 10VVVVVV 
10VVVVVV 


到 第 31 位 1111110V 10VVVVVV 10VVVVVV 10VVVVVV 
10VVVVVV 10VVVVVV 





※ 本 图 中 的 “V” 表 示 字 符 编 码 的 位 都 存储 在 靠 右 的 位 置 。 
图 5-1 UTF-8 的 二 进 制 表 示 方 法 
在 图 5-1 中 的 “V”* 表 示 字 符 编 码 的 位 都 存储 在 靠 右 的 位 置 。 这 种 方法 的 好 








处 在 于 ， 在 只 使 用 ASCII 字 符 的 情况 下 兼容 现存 的 ASCI 编 码 ， 而 且 ， 
由 于 ASCII 字 符 以 外 的 字符 〈UTEF-8 需 要 2 字 节 以 上 来 表示 的 字符 ) 全 部 
使 用 0x80 以 上 的 字 节 依次 表示 ， 因 此 即便 只 考虑 了 ASCII 编 码 的 程序 
(编译 器 等 ) ，《〔〈 只 要 能 通过 8 位 ) 也 可 以 正常 地 处 理 UTF-8 的 文件 。 
像 GB2312 中 0x5C 那 样 的 问题 不 会 在 UTF-8 中 出 现 。 同 样 ， 在 GB2312 中 
有 搜索 “ 海 " 却 被 匹配 成 *““ ”的 问题 (因为 “ 海 * 的 GB2312 编 码 为 0xB0 
0xA1,“““ ”的 编码 为 0xA1 0xB0) ，UTF-8 的 第 1 个 字 节 不 会 与 其 他 字 
符 的 第 2 个 以 及 之 后 的 字 节 重复 ， 因 此 不 会 有 问题 。 另 外 ，UTF-8 的 表 
示 方 式 是 以 字 节 为 单位 的 ， 所 以 也 不 会 受 字 节 序 的 影响 ”。 

* 因 此 从 逻辑 上 来 讲 不 再 需要 BOM 了 ， 但 还 是 有 附加 了 BOM 的 编辑 器 和 没有 BOM 就 不 能 正常 运 
行 的 应 用 存在 。 


UTF-8 的 缺点 在 于 ， 用 UTF-16 的 2 个 字 节 可 以 表示 的 字符 ， 在 UTF-8 中 需 
要 3 个 字 节 才能 表示 。 


话说 回来 ， 图 5-1 中 所 示 ，UTF-8 最 大 为 6 字 节 ， 可 以 表示 31 位 的 码 位 
《实际 分 配 到 了 4 字 节 21 位 ) 。 但 是 ， 在 使 用 UTF-16 的 情况 下 连 表 示 21 
位 的 字符 也 做 不 到 。 因 此 需要 使 用 一 种 称 为 代理 对 〈Surrogate Pair) 的 
方法 ， 即 如 果 最 初 的 2 个 字 节 在 特定 范围 〈《0xD800~0xDBFF) 的 话 就 要 
连接 后 面 的 2 个 字 市 来 表示 1 个 字符 ， 以 此 方法 表示 0x10000~0x10FFFF 
之 间 的 字符 。0x110000 以 后 不 能 用 UTF-16 表 示 。 


补充 知识 Unicode 可 以 固定 〈 字 节 ) 长 度 吗 ? 


就 像 5.1.2 节 介绍 的 那样 ， 在 内 存 中 表示 共 个 字符 溃 的 时 候 ， 如 果 每 个 字 
符 占 的 内 存 空间 大 小 是 可 变 的 ， 束 会 很 不 方便 。 试想 一 下 ， 只 要 写 
str[i] 就 能 取 到 str 的 第 i 个 字符 的 话 确 实 很 方便 。 


基于 这 点 ， 在 Unicode 中 UCS2 汽 围 内 所 有 的 字符 都 可 以 用 2 个 字 市 表 
示 ， 要 是 能 忍受 ， 即 使 ASCII 字 符 也 要 消耗 2 个 字 节 的 话 就 太 完美 了 。 想 
法 总 是 美好 的 ， 结 果 接 下 来 发 现 2 个 字 节 容 不 下 了 ， 又 引入 了 代理 对 ， 
结果 1 个 字符 又 失去 了 固定 长 度 。 真 是 蠢 死 了 了。 肯定 会 有 人 这 样 想 〈 实 
际 上 我 以 前 就 是 这 么 想 的 ) 。 


但 是 ，Unicode 在 最 初 的 建议 稿 〈1989 年 9 月 的 Unicode Draft1) 中 就 提出 
了 ， 以 在 普通 的 罗马 字 后 面 加 上 方言 记号 的 形式 《合成 字符 ) 表示 德语 
的 元 音 变 音 及 类 似 的 字符 。 因 此 ，A 在 Unicode 中 表示 为 U+6842 







































































U+6368 〈 但 是 为 了 与 现存 的 Latin-1 编 码 兼 容 ， 也 可 以 用 U+66C4 表 
2 


总 之 ，Unicode 从 一 开始 就 没有 想 让 一 个 字符 用 固定 长 上 度 表示 。 
5.3 crowbar book_ver.0.3 的 实现 


本 节 将 要 说 明 如 何在 crowbar_ver.0.3 中 实现 〈 实 现 到 什么 程度 ， 怎 么 实 
现 ) 对 中 文 的 文 持 。 


5.3.1 ”要 实现 到 什么 程度 ? 


crowbar 对 中 文 (或 者 说 国际 化 ) 的 支持 应 该 到 什么 程度 呢 ? 这 个 “ 程 
度 ” 包 含 了 多 方面 的 含义 。 首 先 ， 到 目前 为 止 ，crowbar 的 变量 或 者 函数 
名 之 类 的 标识 符 只 支持 字母 。 


Java 等 语言 可 以 使 用 汉字 命名 变量 ， 但 我 想 很 少 有 人 会 用 到 〈 这 只 是 因 
为 习惯 的 问题 ， 其 实用 汉字 来 命名 变量 ， 代 码 可 读 性 没准 会 有 飞跃 性 的 
提高 ) ， 这 个 功能 即使 文 持 了 中 文 也 没 人 会 用 到 。 夯 外 ， 如 果 要 让 标识 
符 文 持 汉字 ， 就 要 决定 是 否 允 许 变量 名 里 面包 含 全 角 空 格 。 因 为 比较 态 
烦 ， 这 里 就 先 跳 过 了 。 


另外 还 有 一 个 问题 就 是 ， 要 文 持 一 个 什么 样 的 字符 集 ? 


姑且 以 宽 字符 (wchar_t ) 为 一 个 字符 来 处 理 。 使 用 5.1.3 节 中 介绍 过 的 
mbtowc() 系列 函数 将 多 字 节 字符 转换 为 宽 字 符 。 


在 Linux 中 使 用 sizeof(wchar _t) 返回 4， 但 在 Windows 中 返回 2。 
此 ， 筑 字符 可 以 正常 处 理 ASCII 字 符 和 普通 的 中 文 ， 但 是 超过 了 UCS2 范 
围 的 字符 (在 UTF-16 中 被 组 成 代理 对 的 字符 〉 就 不 能 直接 处 理 了 。A 方 
言 这 样 的 合成 字符 也 是 不 能 处 理 的 (使 用 兼容 Latin-1 的 U+00C4 来 表示 
就 另 当 别 论 了 ) 。 妆 然 并 不 是 完全 不 能 表示 ， 如 果 使 用 字符 串 的 
和 函数 获取 字符 串 的 长 度 的话 ， 会 得 到 和 实际 长 度 不 同 的 结 

















这 样 一 来 ， 也 不 能 说 是 完全 文 持 了 Unicode， 但 是 对 于 大 多 数 人 来 说 ， 
暂且 让 我 可 以 正常 地 使 用 中 文 和 英语 就 可 以 了 。 我 想 比 起 花 很 多 时 间 来 


ee 把 大 多 数 人 觉得 “可 以 ”的 范围 赶快 做 出 来 ， 是 更 好 的 
汪 梭 
什 。 








以 下 两 种 编码 方式 为 用 于 输入 输出 的 多 字 节 的 字符 编码 方式 。 
。 GB2312 
。 UTF-8 


先 假设 crowbar 处 理 器 中 的 C 代 码 和 用 crowbar 书 写 的 代码 以 及 fgets() 
等 读 取 输 入 输出 文件 的 函数 ， 全 部 使 用 了 统一 的 编码 方式 。 


5.3.2 ”发 起 转换 的 时 机 

在 crowbar 中 ， 以 下 这 些 情 况 需 要 由 多 字 节 字符 转换 为 宽 字 符 ， 或 者 由 

宽 字 符 转 换 为 多 字 节 字符 。 

1. 用 crowbar 书 写 的 代码 中 的 字符 串 和 常量 在 编译 时 需要 转换 为 宽 字 符 
串 。 

2. fgets() 函数 读 取 的 字符 串 需 要 由 多 字 节 字符 串 转 换 为 宽 字 符 串 。 

3. 调用 print() 、fputs() 等 得 出 函数 的 时 候 ， 需 要 由 宽 字 符 串 转换 
为 多 字 节 字符 串 。 

4. 因为 C 代 码 中 使 用 GB2312 (EUC-CN) 风 入 错误 信息 ， 所 以 在 组 装 
错误 信息 时 需要 转换 为 宽 字 符 串 (信息 在 显示 的 时 候 ， 需 要 根据 规 


则 3 再 次 进行 转换 ) 。 
5. 在 接收 命令 行 参数 ARGS 的 时 候 ， 需 要 转换 为 宽 字 符 串 。 


5.3.3 ”关于 区 域 设 置 
在 5.3.1 节 中 说 道 : 


先 假设 crowbar 的 处 理 器 中 的 C 代 码 和 用 crowbar 书 写 的 代码 以 及 
fgets() 等 读 取 输入 输出 文件 的 函数 ， 全 部 使 用 了 统一 的 编码 方式 。 


可 是 ， 编 码 方式 究竟 是 什么 呢 ? 简单 地 说 ， 就 是 环境 默认 的 字符 编码 。 
Windows 是 GB2312，Linux 是 EUC-CN 或 者 UTF-8。UNIX 可 以 根据 环境 
变量 LANG 进行 切换 。 


那么 ， 实 际 上 使 用 mbtowc() 系列 函数 将 多 字 节 字符 串 转 换 为 锅 字 符 

















品 ， 想 要 为 转换 函数 群 指定 默认 区 域 设 置 必 须 调用 下 面 的 函数 。 


setlocale(LC CTYPE, "") 


在 crowbar 中 ， 需 要 在 main() 函数 中 执行 上 面 的 语句 。 


setlocale() 函数 的 详细 设计 在 这 里 不 再 袭 述 ， 请 参考 (C 语 言 标准 库 
的 ) 手册 等 资料 。 

5.3.4 ”解决 0x5C 问 题 

在 5.1.1 节 中 提 到 ， 当前 的 crowbar 由 于 运行 在 GB2312 环 境 下 ， 字符 捉 常 
量 中 不 能 使 用 例如 “了 栅 ” 这 样 的 字符 。 

即使 可 以 使 用 mbtowc() 系列 函数 正确 地 处 理 GB2312， 还 必须 在 一 开始 
束 用 lex 解 释 字 符 串 常量 ， 这 还 不 算 完 ， 为 了 解决 这 个 问题 还 要 在 
crowbar.l 中 添加 代码 。 

GB2312 的 汉字 ， 第 1 个 字 节 定义 在 0xA1-0xF7 之 间 ， 第 2 个 字 节 定义 在 


0xA1-0xFE 之 间 。 因 此 ， 如 果 只 支持 GB2312 的 话 ， 要 在 crowbar.l 中 添加 
下 面 4 行 代码 。 











〈 之 前 省 略 ) 

<STRING LITERAL STATE>[\xal-\xf7][\x46-\x7e] { 
crb_add string literal(yytext[08]); 
crb_add string literal(yytext[1]); 

















} 
《之 后 省 略 ) 




















为 了 在 编译 时 能 区 分 源 文 件 的 编码 ， 在 解释 器 中 保存 一 个 标识 。 














/* 保存 编码 方式 的 枚 举 类 型 */ 

typedef enum { 
GB_2312_ENCODING=1， /* GB2312 */ 
UTF_8_ENCODING /* UTF-8 */ 

} Encoding; 














struct CRB_ Interpreter tag { 
(中 间 省 略 ) 





/* 在 CRB_Interpreter 结 构 体 中 保存 
crowbar 代 码 的 编码 方式 */ 


Encoding source encoding; 


}; 





在 此 基础 上 ， 在 lex 的 启动 条 件 中 添加 6B_2312_2ND_CHAR (GB2312 的 
第 2 个 字 市 )， 代 码 在 读 取 到 了 GB2312 的 第 1 个 字 节 时 跳 转 
到 GB_2312_2ND_CHAR 执行 。 


<STRING LITERAL STATE>. { 
/* 从 解释 器 中 取得 编码 方式 */ 
Encoding enc = crb get current interpreter()->source encoding; 
/* 先 将 字符 添加 到 字符 串 常 量 中 */ 
crb_add string literal(yytext[6]); 
/* 如 果 代 码 运行 在 GB2312 环 境 下 ， 
再 判断 这 个 字符 ， 如 果 是 GB2312 的 第 1 个 字 节 ， 
跳 转 到 GB_2312_2ND_CHAR 执 行 */ 
if (enc == GB 2312 ENCODING 
&& ((unsigned char*)yytext[6] >= 68x81) 
&& ((unsigned char*)yytext[86] <= 6x9e)) { 
BEGIN GB 2312 2ND_CHAR; 


















































} 


<GB 2312 2ND CHAR>. { 
/* 添加 GB2312 的 第 2 个 字 节 */ 
crb_add string literal(yytext[6]); 
BEGIN STRING LITERAL STATE; 








增加 CRB_Interpreter 的 source_encoding 成 员 ， 是 因为 在 创建 
CRB_Interpreter 的 内 存 空间 时 ， 不 能 使 用 #ifdef 进行 分 割 〈 请 参考 
interface.c 的 函数 CRB_Interpreter() ) 。 


补充 知识 ”失败 的 #ifdef 
如 前 面 所 述 ， 在 执行 解释 器 的 处 理 器 中 ， 用 扩 fdef 来 切换 语言 的 〈 默 


认 ) 设 定 (GB2312、GBK 或 者 是 UTF-8) 。 在 最 初 的 crowbar 中 ， 就 是 
使 用 #ifdef 进行 对 应 处 理 器 的 切换 。 


在 一 些 C 的 入 门 书 中 都 有 这 样 一 句 话 : 为 了 提高 移植 性 而 适当 地 使 

用 #ifdef 。 以 我 的 理解 , “适当 地 使 用 ”其 实 就 是 “尽量 别 用 ”的 意思 。 
因此 ， 这 次 我 (在 处 理 器 切换 时 ) 使 用 了 扩 fdef ， 这 对 我 来 说 也 是 一 
次 失败 。 


根据 处 理 器 不 同 而 使 用 #ifdef 选择 不 同 代码 片段 的 话 ， 会 使 代码 变 得 





很 难 理解 。 力 外 ， 像 这 样 分 散 的 代码 通常 很 难 进行 充分 的 测试 。 在 理想 


状态 下 ， 所 有 #ifdef 的 组 合 可 以 伴随 者 每 日 构建 进行 目 动 化 测试 ， 这 
感觉 还 不 错 ， 但 是 我 认为 这 在 实际 中 很 难 实现 。 


如 果 是 为 了 提高 移植 性 ， 那 么 也 可 以 不 使 用 #ifdef 来 处 理 各 种 分 支 ， 
只 要 写 一 个 尽 可 能 适应 各 种 处 理 器 的 代码 不 是 就 行 了 吗 ? 


编程 方面 的 著作 《程序 设计 实践 》 占 中 有 以 下 记载 。 








如 果 我 们 对 于 条 件 编 译 持 否 定 态度 ， 那 么 就 会 由 此 发 生 一 些 问题 。 先 
不 说 最 抹 烦 的 。 条 件 编 译 基 本 上 都 不 可 能 进行 测试 。( 中 间 省 略 ) 在 


对 其 中 一 个 #ifdef 代码 块 进行 测试 的 同时 ， 如 采 想 测试 另外 的 


#ifdef 代码 块 ， 除 非 改 变 环境 使 男 一 个 柱 fdef 代码 块 生 效 ， 人 否则 无 


法 进行 验证 。 
(中 间 省 上 略 》 





由 此 我 们 得 知 ， 让 我 们 感 兴趣 的 是 ， 在 所 有 目标 环境 中 都 可 以 运行 的 


共通 性 功能 。 
5.3.5 ”应 该 是 什么 样子 
5.3.1 节 决定 了 crowbar 不 处 理 合成 字符 和 UCS2 范 围 以 外 的 字符 。 
如 果 只 是 为 了 对 应 中 文 的话 ， 这 样 的 设计 ( 指 5.3.1 节 中 提 到 的 设计 方 
式 ) 就 没 问 题 了 。 但 如 果 想 要 完美 地 实现 ， 和 恐怕 就 需要 考虑 以 下 几 点 
(以 Unicode 为 前 提 ) 。 
1. 内 部 表现 也 要 使 用 UTF-8 














如 果 考 虑 合成 字符 的 话 ， 就 不 可 能 让 字符 有 固定 长 度 。 如 采 想 要 取得 字 





符 串 的 第 n 个 字符 ， 每 次 都 必须 从 字符 串 的 开头 扫描 ， 所 以 还 是 算 了 
吧 。 


2. 不 使 用 mbtowc() 系列 函数 ， 目 己 实 现 全 部 的 转换 


如 果 自 己 保存 转 码 表 ， 束 要 根据 不 同 的 情况 使 用 不 同 的 转 码 表 。 比 如 ， 
在 需要 和 Java 兼 容 的 时 候 要 使 用 Java 的 转 码 表 ， 如 果 要 在 Windows 对 话 
框 中 显示 一 个 字符 串 的 时 候 又 要 使 用 Windows 的 转 码 表 等 。 


mbtowc( ) 系列 函数 不 仅 意味 着 “在 所 有 的 处 理 器 中 ， 总 是 可 以 返回 所 其 
望 结果 "， 还 表示 “如 果 自 己 保存 转 码 表 的 话 ， 所 有 转换 都 要 自己 进 
行 ”。 


作为 一 个 还 算 现实 的 做 法 〈 只 要 能 处 理 好 中 文 就 可 以 了 ) ， 我 制作 的 这 
个 语法 处 理 器 ， 正 好 解决 了 所 有 的 问题 。 如 果 一 味 退 求 结 末 而 不 能 实现 
也 是 没有 意义 的 。 


补充 知识 ”还 可 以 是 别 的 样子 


me a 
0 


在 UTF-8 这 种 方法 中 ， 痛 先 让 内 部 的 编码 方式 使 用 Unicode， 在 正常 的 情 
况 下 ， 不 论 是 从 外 部 输入 的 字符 编码 还 是 向 外 部 输出 的 字符 编码 都 是 


Unicode。 


除 此 之 外 还 有 另外 一 种 方式 ， 即 内 部 编码 不 固定 。 这 种 方式 称 为 Code 
Set Independent (CSI) 。 


知 将 内 部 编码 固定 为 Unicode， 那 么 在 UNIX 的 EUC 环 境 中 ， 是 绝对 不 可 
能 使 用 EUC 以 外 的 编码 方式 的 。 在 这 种 情况 下 ， 每 次 发 生 读 写 时 都 要 使 
用 转 码 表 在 其 中 转换 。 和 暂且 不 说 效率 低下 的 问题 ， 更 重要 的 是 ， 如 果 想 
要 表示 在 Unicode 中 没有 的 字符 ， 或 者 要 把 在 Unicode 中 认为 是 一 样 的 字 
符 当 做 不 同 的 字符 处 理 ， 这 些 情况 使 用 Unicode 都 是 不 能 处 理 的 。 


实际 上 ，Ruby1.9 就 采用 了 CS 方式 。 在 Ruby 中 ， 每 个 字符 串 都 会 保存 着 
目 己 的 编码 方式 。 


例如 在 输出 文件 的 情况 下 ， 只 要 Ruby 知 道 转换 方法 ， 就 可 以 将 要 输出 的 
0 




















Code Set Independent 

















具体 来 说 ， 比 如 在 Ruby 文 持 的 编码 方式 中 有 Emacs-Mule， 这 种 编码 方 
式 没 有 采用 像 Unicode 一 样 将 中 文 汉 字 分 配 统一 编码 的 方式 ， 它 基于 
ISO-2022 为 各 国 〈 但 是 没有 国籍 限制 ) 语言 分 配 了 不 同 的 编码 * 。 在 处 
理 以 这 种 方式 编码 (同时 存在 多 种 语种 的 文字 〉 的 文件 时 ， 如 果 像 
crowbar 那 样 限定 内 部 字符 编码 为 Unicode 的 编码 方式 ， 那 么 在 转换 为 内 
部 表现 时 就 会 产生 不 可 逆 的 (无 法 恢复 到 原来 状态 的 ) 信息 丢失 。 


只 是 处 理 了 不 同 的 语种 ， 但 不 是 按 国家 划分 的 编码 。 一 一 译 者 注 
CSI 既 有 优点 也 有 缺点 。 

当 有 N 种 外 部 编码 方式 时 ，Unicode 正 常 的 处 理 方法 是 准备 输入 和 输出 的 
编码 方式 转换 器 〈 共 2N 种 ) 。 与 此 相对 ，CSI 只 需要 (CN-1) 种 。 另 
外 ， 在 程序 中 进行 比较 和 连接 字符 串 的 时 候 也 会 受到 限制 。 


现在 ， 为 了 方便 实现 而 优先 将 内 部 编码 限定 为 Unicode， 这 实际 上 还 是 
有 些 问 题 的 ， 这 就 是 我 坚持 CSI 的 原因 。 

这 是 一 个 哲学 或 者 说 是 价值 观 的 问题 。 两 种 方式 都 有 它们 的 合理 性 ， 在 
使 用 的 时 候 应 该 在 平衡 利 整 的 基础 上 再 做 出 决定 。 
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第 6 章 ”制作 静态 类 型 的 语言 
Diksam 





6.1 制作 Diksam Ver 0.1 语 言 的 基本 部 分 


此 前 的 章节 中 ， 我 们 已 经 制作 了 一 个 无 变量 类 型 、 通 过 分 析 树 执行 的 语 
言 crowbar。 从 本 章 开始 ， 我 们 来 制作 一 个 静态 类 型 并 通过 字 市 码 执行 


的 语言 Diksam。 


Diksam 这 个 名 字 的 由 来 可 不 是 “ 像 Pen 一 样 2 的 双关 语 ， 而 是 我 钟爱 的 一 


种 红茶 的 名 字 。 既 然 有 了 咖啡 语言 Java， 再 来 一 个 红茶 语言 也 无 伤 大 雅 
吧 。Diksam 有 是 一 种 口味 浓郁 的 阿 陡 姆 红 条 ， 一 般 都 用 来 做 成 奶 和 从 。 我 很 
喜欢 直接 去 感受 它 的 那 份 浓郁 。 





6.1.1 好 Diksam 的 运行 状态 
前 面 已 经 提 到 ，Diksam 是 通过 字 节 码 执行 的 语言 。 


说 起 通过 字 节 码 执行 的 语言 ， 以 Java 为 例 再 合适 不 过 了 ”。 在 编号 Java 代 
码 时 ， 要 先 编写 源 程序 ， 再 通过 javac 编译 成 保存 着 字 节 码 的 class 文 件 


























* 昌 然 现 在 可 能 基本 上 都 以 JIT (Just In Time) 的 方式 运行 ， 但 是 本 书 中 不 考虑 这 种 情况 。 


Diksam 语 言 不 会 生成 像 class 文 件 那样 的 字 节 码 文件 。 编 译 器 解析 源 代码 
并 生成 分 析 树 后 ， 直 接 在 内 存 中 生成 字 节 人 码 。 这 些 在 内 存 中 生成 的 字 节 
人 码 ， 会 由 Diksam 的 虚拟 机 DVM (D iksam V irtual M achine) 运行 。 


Diksam 不 生成 字 节 码 文件 的 做 法 ， 免 去 了 考虑 文件 格式 和 文件 编码 的 麻 
烦 。 当 然 ， 除 了 我 的 个 人 考量 外 ， 对 于 用 户 来 说 也 省 去 了 逐个 编译 源 文 
件 的 工夫 。 这 种 做 法 在 代码 量 非常 巨大 的 情况 下 ， 每 次 启动 程序 时 花费 
0 
很 方便 的 。 


另外 ， 在 实现 中 ，DVM 将 完全 信任 编译 器 生成 的 字 节 码 。 所 谓 “ 完 全 信 
任 ” 就 是 说 ， 即 使 是 含有 恶意 代码 的 字 节 码 DVM 也 会 加 载 执 行 ， 不 过 这 
可 能 会 使 DVM 有 崩溃 。 


Diksam 是 一 种 静态 类 型 语言 ， 在 编译 时 就 已 经 决定 了 所 有 变量 和 表达 式 
的 数据 类 型 。 因 此 ， 在 运行 时 就 不 需要 再 检查 变量 的 数据 类 型 了 。 比 

如 ， 为 了 在 堆 中 存储 一 个 字符 串 ，string 型 变量 会 (间接 的 ) 保存 指 
问 该 字符 串 的 指针 ， 但 如 果 存 储 的 整数 型 局 部 变量 被 当 作 string 型 引用 

时 ，DVM 束 会 因为 找 不 到 正确 的 引用 地 址 而 朋 江 。 


但 也 是 有 相应 对 策 的 ， 比 如 在 网 页 中 运行 的 Java Applet， 由 于 必须 执行 
来 自 外 部 的 《不 能 被 信任 的 ) 字 市 码 ， 因 此 绝对 不 允许 发 生 上 述 情况 。 
所 以 Java 在 加 载 字 节 码 的 时 候 会 执行 验证 器 (verifier) 程序 ， 以 验证 加 
载 的 字 节 人 码 是 否 正 确 。 






































但 是 ， 制 作 验 证 器 非常 复杂 ， 而 Diksam 还 只 是 直接 在 内 存 中 执行 字 节 码 
的 语言 ， 所 以 .…... 不 好 意思 ， 这 里 我 要 跳 过 啦 。 


6.1.2 什么 是 Diksam 


首先 ， 我 们 制作 的 Diksam 是 Diksam book_ver.0.1 版 本 ， 实 例 请 参考 代码 
清单 6-1。 


代码 清单 6-1 fizzbuzz 0 _1.dkm 


int print(string str) 


int i; 
for(i = 1; i <= 1606; i++){ 
if(i % 15 == 60){ 
print("FizzBuzz\n"); 
}elsif(i % 3 == 6){ 
print("Fizz\n"); 
}elsif(i % 5 == 6){ 
print("Buzz\n"); 
}elset{ 
print("" + i + "\n"); 





6.1.3 ”程序 结构 


与 crowbar 相 同 ，Diksam 中 也 有 顶层 结构 ， 并 且 人 允许 在 函数 外 编写 代 
码 。 程 序 从 顶层 结构 的 开头 开始 执行 。 


Diksam 用 下 面 的 方式 定义 函数 。 与 C 语 言 基 本 相同 。 








int func(int a, double b){ 
int local variable;// 声 明 局 部 变量 








local variable = a + b; 
print("local variable.." + local variable + "\n"); 


return local variable; 


[| 
6.1.4 数据 类 型 
Diksam book_ver.0.1 可 以 使 用 以 下 四 种 数据 类 型 。 


。boolean (布尔 ) 型 。 可 以 赋 true 或 false 值 。 

e。 int (数字 ) 型 。 

。double ( 浮 点 ) 型 。int 和 double 混合 进行 运算 时 ， 参 与 运算 的 
int 类 型 会 自动 扩展 为 doub1le 类 型 。 

。 string 〈 字 符 串 ) 型 。 当 字符 串 在 + 扎 左 边 时 ， 右 边 的 部 分 会 自 
动 转换 为 string 型 。 


double 这 个 关键 字 在 C 语 言 中 的 意思 是 双 精 度 浮 点 数 ， 这 里 的 double 
以 float ( 单 精度 浮 点 数 ) 的 存在 为 前 提 。 但 是 ，Diksam 中 并 没 

有 float ， 尺 管 它 叫 作 double 型 ， 也 纯粹 是 为 了 照顾 C 和 Java 语 言 的 使 
用 者 而 已 。 


6.1.5 ”变量 


如 前 所 述 ，Diksam 是 静态 类 型 的 语言 ， 变 量 必须 事先 声明 ， 声 明 方 式 和 
C 语 言 一 样 ， 如 下 所 示 : 


int a; 


在 函数 内 声明 的 局 部 变量 只 可 以 在 声明 变量 的 程序 块 内 引用 ， 冰 数 外 声 
明 的 变量 是 全 局 变量 1 。 


1 程序 块 内 外 都 可 引用 。 一 一 译 者 注 


现 阶 段 在 Diksam 中 变量 声明 也 是 一 种 语句 ， 可 以 写 语句 的 地 方 就 可 以 声 
明 变 量 。 

在 C 语 言 中 变量 必须 声明 在 程序 块 的 开头 部 分 ，C++ 和 Java 取 消 了 这 个 
限制 。 虽 然 这 被 大 多 数 人 认为 是 个 改进 ， 而 且 Diksam 也 是 这 么 做 的 ， 但 
古老 实说 我 不 喜欢 这 个 改进 。 我 认为 ， 在 代码 的 任意 位 置 都 可 以 声明 变 
量 会 使 一 个 函数 渐渐 变 得 元 长 。 因 此 ， 也 许可 以 趁 现 在 “改正 过 来 。 





























[NS 


制作 Diksam 语 言 的 机 会 。 译 者 注 
Diksam 中 声明 变量 的 方式 和 C 等 语言 相同 ， 采 用 类 型 变量 名 ; 的 形式 。 
这 种 形式 对 于 处 理 数 组 和 函数 类 型 的 变量 来 说 很 及 烦 。 如 果 引 入 预 声 明 


关键 字 var， 那 么 像 下 面 这 样 把 数据 类 型 写 在 后 面 的 语法 〈Pascal、 
Ada、ActionScript 都 是 这 种 方式 ) 处 理 起 来 会 简单 一 点 。 


var a:int; 


但 是 ， 习 惯 了 C 或 者 Java 语 言 的 程序 员 肯 定 会 说 ， 还 是 类 型 变量 名 ; 这 
样 的 方式 写 着 更 顺手 。 为 了 照顾 大 家 ，Diksam 还 是 采用 了 大 家 比较 习惯 
的 方式 。 实 际 上 ， 在 拙 若 《征服 C 指 针 》“《“ 人 民 邮 电 出 版 社 ， 闫 雅明 
译 ) 中 ， 整 本 书 都 在 表达 对 C 语 言 变量 声明 语法 结构 的 不 满 。 在 那 本 书 
中 写 了 那么 多 不 满 ， 现 在 却 变 成 了 墙头 草 ， 肯 定 要 被 别 突 了。 
言 归 正 传 ， 类 型 变量 名 ; 形式 的 语法 如 果 包 含 了 数组 和 类 (class) ， 
制作 语法 分 析 响 的 时 候 就 会 出 现 各 种 问题 ， 笠 亏 Diksam 在 语法 规则 上 人 花 
人 这 个 话题 我 们 在 后 面 的 章节 中 详细 说 
明 。 


变量 初始 化 语句 (initializer) 的 方式 也 与 C 语 言 相 同 。 


6.1.6 ”语句 和 流程 控制 


流程 控制 语句 有 : if (elseif 、else ) 、while 、for 、break 
、Continue 、Feturn 。 


含义 和 crowbar 相 同 ， 花 括号 也 不 可 以 省 略 。 另 外 ，break 和 continue 
也 可 以 使 用 标签 〈 和 Java 一 样 ) 。 


6.1.7 表达 式 
Diksam 中 可 以 使 用 的 运算 符 及 其 优先 级 ， 如 表 6-1 所 示 。 























表 6-1 在 Diksam 中 可 以 使 用 的 运算 符 











符号 反 转 


字符 串 也 可 以 比较 大 小 (以 strcmp() 为 基准 ) 。 
而 是 值 ) 。 


逻辑 与 (AND) 运算 符 。 短 路 运算 符 ， 在 表达 式 a 8& b 中 ， 如 果 a 为 
真 ，b 就 不 判断 了 。 


逻辑 或 (OR) i 
真 ，b 就 不 判 出 


运算 符 。 与 C 语 言 中 的 含义 相同 。 
运算 符 。 从 左 到 右 的 顺序 计算 表达 式 ， 返 回 右边 表达 式 的 值 。 






























































函数 调用 被 定义 为 运算 符 ， 资 明 函 数 也 是 一 种 表达 式 。 





这 束 意 味 着 ， 在 crowbar 中 可 以 像 C 语 言 的 函数 指针 那样 把 函数 赋值 给 变 
量 ， 但 是 ， 实 际 上 crowbar 并 不 能 声明 保存 函数 的 变量 ， 因 此 也 就 没 办 
法 把 函数 赋值 给 变量 。 

6.1.8 ”内 建 函数 


Diksam 在 一 开始 就 准备 了 内 建 函 数 。Diksam book_ver.0.1 中 的 内 建 函 数 
一 览 表 如 下 所 示 。 


int print(string arg) | 显示 arg。 返 回 值 为 0〈 因 为 还 没有 void 类 型 ) 








字 比 | 


JU 
只 有 一 行 的 一 唤 表 ， 很 粮 是 吧 。 


6.1.9 ”其 他 





注释 可 以 使 用 C 风 格 的 /* ~*/ ， 也 可 以 使 用 C++ 从 // 开始 到 本 行 结束 的 





6.2 ”什么 是 静态 的 /执行 字 节 三 的 语言 
6.2.1 静态 类 型 的 语言 


如 前 所 述 ，Diksam 是 静态 类 型 的 执行 字 市 码 的 语言 。 这 样 的 语言 有 以 下 
优点 。 


1. 能 够 高 速 执行 《通常 情况 下 ) 


理由 会 在 之 后 详 述 。 对 于 静态 类 型 的 执行 字 节 码 的 语言 来 说 ， 如 果 能 够 
村 素 地 实现 这 两 个 方面 的 话 ， 会 比 无 天 型 并 通过 分 析 和 执行 的 语言 拥有 
快 的 速度 。 


2. 编译 阶段 和 执行 阶段 分 离 


例如 在 Java 中 ， 事 先 使 用 javac 把 源 代码 生成 为 class 文 件 ， 这 样 在 执行 时 
就 不 需要 再 编译 了 。 


实际 上 crowbar 由 源 代 码 生 成 分 析 树 的 处 理 并 不 耗 时 ， (Diksam 要 想 比 
crowbar 强 的 话 ) 速度 上 没有 什么 可 期 竺 的。 相反， 如 果 想 要 在 不 发 布 
源 代码 的 情况 下 运行 程序 倒 还 是 有 和 希望 的 。 话 虽 如 此 ， 实 际 上 因为 现在 
Rt i 结果 还 是 必须 要 发 布 源 代 


3. 相 比 之 下 使 用 静态 类 型 的 语言 编写 的 代码 更 易 读 


静态 类 型 的 语言 通常 要 将 变量 和 类 型 一 起 声明 (比如 int a; ) 。 人 也许 
会 有 人 觉得 这 样 很 及 烦 〈 这 就 是 为 什么 无 类 型 的 LE 语言 这 么 有 人 和 气 的 

原因 ) ， 实 际 上 也 不 是 很 费事 ， 因 为 还 是 把 变量 类 型 明确 化 以 提高 源 代 
码 的 可 读 性 更 为 重要 。 人 至 少 我 是 这 么 想 的 ， 但 这 人 句 话 是 一 个 泥潭 ， 还 是 
赶快 结束 这 个 话题 吧 。 

















6.2.2 ”什么 是 字 节 码 


字 节 码 是 在 被 称 为 虚拟 机 (Virtual Machine) 的 虚拟 CPU 上 执行 的 机 器 


语言 。 机 器 语言 下 接 通 过 CPU 执 行 ， 而 字 市 码 遂 过 虚拟 机 执行 。 


字 节 码 和 机 器 语言 一 样 ， 实 际 上 都 是 数字 的 序列 (这 点 也 和 机 器 语言 一 
样 ) 。 为 了 让 大 家 更 好 的 理解 ， 各 个 命令 将 以 一 种 被 称 为 助 记 符 
Cmnemonic) 的 字符 串 形式 表现 出 来 。 


比如 在 Java 虚 拟 机 〈JVM) 中 运行 的 字 节 码 就 是 下 面 这 个 样子 。《〈 再 来 
回 看 一 下 代码 清单 1-4) 


: bipush 16 
: istore 1 

: iload 1 

: bipush 16 
: if_icmpne 
: getstatic 
: ldc 








: invokevirtual 
: goto 28 

: getstatic 

: ldc 

: invokevirtual 





可 能 有 人 会 认为 ， 束 算是 为 了 让 读者 能 够 更 好 地 理解 才 使 用 了 字符 串 的 
表现 方式 ， 可 这 种 根本 就 不 知 所 云 的 东西 如 果 想 要 从 源 代码 生成 出 来 ， 
简直 就 是 做 梦 ， 更 不 要 说 作 一 个 可 以 生成 字 节 码 的 编译 器 了 。 但 实际 上 
并 没有 那么 难 ， 具 体 步 又 请 见 下 市 。 


6.2.3 ”将 表达 式 转 换 为 字 市 码 

crowbar 从 ver.0.2 版 本 开始 把 计算 过 程 中 的 值 存 入 栈 中 (为 了 确保 GC 可 
以 追踪 指针 ) 。 在 这 种 情况 下 ， 执 行 字 节 码 的 语言 也 会 进行 大 致 同样 的 
实现 。 关 于 此 事 ，4.2.3 市 的 最 后 部 分 中 有 如 下 记载 。 

这 种 做 法 与 JVM 推 栈 机 运行 字 节 码 时 的 栈 动 作 相 同 。 如 此 一 来 ， 我 们 束 
同学 节 人 码 解 释 器 又 到 进 了 一 步 。 

0 














1. 常量 /变量 类 会 直接 把 值 保 存 到 栈 中 。 
2. 双 目 运算 符 以 先 左 后 右 的 顺序 保存 到 栈 上 ， 从 栈 项 站 的 两 个 元 素 开 
台 计 算 ， 并 将 结果 保存 到 栈 中 。 


比如 : 


1+2+*3-4 


这 个 表达 式 会 展开 成 图 6-1 所 示 的 分 析 树 。 








图 6-1 分 析 树 








这 个 分 析 树 以 自 上 而 下 的 顺序 所 历 ， 同 时 ， 和 常量 的 节点 会 生成 字 节 

人 码 push 值 ， 运 算 符 节点 生成 代表 运算 符 的 字 节 码 ， 生 成 的 字 节 人 码 如 下 
所 示 。 《下 面 的 代码 只 是 用 作 说 明 的 模拟 代码 。 这 些 字 节 码 既 不 是 Java 
的 ， 也 不 是 Diksam 的 。) 









































1: push 1 # 将 [1] 入 栈 
2: push 2 # 将 [2] 入 栈 
3: push 3 # 将 [3] 入 栈 
4: mul # 将 栈 顶 的 两 个 元 素 进行 乘法 运算 ， 并 将 结果 入 栈 。 
5: add # 将 栈 顶 的 两 个 元 素 进行 加 法 运算 ， 并 将 结果 入 栈 。 
6: push 4 # 将 [4] 入 栈 














7: sub # 将 栈 顶 的 两 个 元 素 进 行 减法 运算 ， 并 将 结果 入 栈 。 








此 时 栈 的 动作 如 图 6-2 所 示 。 


将 这 两 个 在 步骤 5 时 将 
届 * 母 - 两 下 
Zp 二 站 y 
1. 洗 [1] 入 栈 2. 将 [2] 入 栈 等 [3] 入 栈 4. 将 栈 顶 i es 
进行 乘法 运算 ， 并 
将 结果 入 栈 。 
这 两 个 元 素 进行 
Re 算 
四 = 中 有 
5. 将 栈 顶 的 两 个 元 素 6. 将 [4] 入 栈 7. 将 栈 顶 的 两 个 元 素 
进行 加 法 运算 ,并 进行 减法 运算 ， 并 
将 结果 入 栈 。 将 结果 入 栈 。 


图 6-2 执行 字 市 码 时 的 栈 动作 


在 表达 式 中 不 止 有 上 例 中 的 双 目 运算 符 ， 还 有 单 目 运算 符 ， 而 且 它 们 的 
思路 是 一 样 的 。 比 如 单 目 运算 符 的 减 写 ， 在 栈 中 执行 的 操作 是 “将 栈 项 
的 值 取 出 ， 反 转 符 号 再 存 入 栈 中 ”。 

但 是 ， 上 述 例子 中 只 处 理 了 整数 。 在 实际 的 编程 语言 中 还 必须 要 处 理 实 
数 ， 也 有 可 能 会 出 现 “ 整 数 和 实数 相 加 ”这 样 的 混合 运算 。 在 这 种 情况 

下 ， 必 须要 将 参与 运算 的 整数 较 换 为 实数 再 进 行 加 法 运 得。 在 有 些 语 言 
中 ， 字 符 串 和 整数 也 可 以 进行 加 法 运算 ”。 接 下 来 的 操作 就 变 成 了 将 整 
数 转换 为 字符 串 然 后 再 将 其 连接 。 


* 有 些 语言 使 用 + ， 有 些 使 用 . 作为 运算 符 。 顺 便 说 一 下 ， 在 crowbar 和 Diksam 中 使 用 的 都 是 + 。 
在 执行 这 样 的 操作 时 ， 有 两 种 方法 。 


一 种 是 在 向 栈 中 保存 值 的 时 候 就 加 入 能 够 区 分 类 型 的 标识 ， 在 运行 时 
再 进行 判断 。crowbar 使 用 的 就 是 这 个 方法 。CRB_Value 结构 体 的 成 
/a 保存 的 就 是 类 型 的 标识 ， 在 运行 时 根据 这 个 标识 进行 转型 和 运 
































男 外 一 种 方法 是 ， 在 编译 时 进行 类 型 判断 。 


如 果 有 必要 转型 的 话 ， 类 型 转换 处 理 将 在 编译 时 进行 。 那 么 ， 像 图 6-3 
这 样 一 个 分 析 树 就 能 够 实现 类 型 的 转换 了 。 








图 6-3 ”类 型 转换 的 分 析 树 
这 个 分 析 树 生成 的 字 节 码 如 下 。 


: push double 
: push_int 
: cast int to double 


: add double 





第 三 行 的 cast_int_to_double 命令 将 栈 顶 的 int 值 转换 为 double 。 

在 这 种 方法 中 ， 如 果 是 加 法 运算 ， 究 竟 要 如 何 区 分 是 整数 之 间 相 加 ， 还 
是 实数 之 间 相 加 或 者 是 字符 串 连 接 呢 ? 在 编译 完成 之 后 就 完全 清楚 了 。 
因此 ， 在 执行 时 无 需 加 入 多 余 的 判断 ， 也 可 以 加 快 执行 速度 。 


但 是 这 样 一 来 ， 在 编译 时 就 必须 要 知道 变量 的 类 型 ， 因 此 必须 要 让 用 户 
进行 带 变量 类 型 的 声明 ”。 


* 静 在 类 型 的 函数 式 语言 ， 即 使 不 声明 类 型 ， 编 译 器 也 可 以 根据 类 型 推论 推测 出 来 。 
6.2.4 ”将 控制 结构 转换 为 字 市 码 
像 if 和 while 之 类 的 控制 结构 ， 在 字 节 码 中 使 用 goto 这 样 的 跳 转 


(jump) 命令 实现 。 



































比如 下 面 这 段 if 语句 。 


if (a == 16) { 
条 件 成 立时 的 处 理 


























条 件 成 立时 的 处 理 














} 
后 续 的 处 理 














将 这 段 代码 用 字 布 码 来 表示 。 


: push 变 量 a 的 值 

: push_int 16 

: eq_int # 栈 顶 的 两 个 int 之 间 进 行 比 较 (==) ， 并 将 结果 入 栈 
: jump_if false 7 # 栈 顶 的 值 如 果 是 false 就 跳 转 到 第 7 行 




















: 条 件 成 立时 的 处 理 
: 条 件 成 立时 的 处 理 
: 后 续 的 处 理 # 从 第 4 行 跳 转 到 本 行 


























在 crowbar 中 ， 控 制 结构 也 是 用 分 析 树 来 表现 的 。 程 序 在 执行 的 同时 对 
分 析 树 进行 递归 ， 为 了 实现 break 和 continue 这 样 的 语句 ， 程 序 必须 
要 从 递归 的 最 深层 开始 〈 使 用 特殊 的 返回 值 ) 。 在 执行 字 节 码 的 语言 中 
可 以 更 简单 地 实现 break 和 continue ， (如 果 必 要 的 话 ) goto 也 可 以 
简单 地 实现 〈 递 归 ) 。 


6.2.5 ”函数 的 实现 

在 C 等 语言 中 ， 通 常情 况 下 函数 的 调用 也 是 用 栈 来 实现 的 。 

这 种 情况 在 抄 著 《征服 C 指 针 》 中 有 详细 的 介绍 ， 请 各 位 读者 参考 。 

中 大 致 说 明了 在 C 的 情况 下 ， 0 人 
又 〈 如 图 6-4) 。 

1. 将 参数 (从 后 面 开始 ) 入 栈 


2. 将 返回 地 址 等 返回 信息 入 栈 
3. 将 局 部 变量 所 占 内 存 区 域 入 栈 


调用 函数 func (1 ,2 ,3) 


增长 方向 
| [ 
| func () 中 的 运算 
-~ | 所 使 用 的 栈 
| 


返回 信息 
1 
3 


base > 









| 


函数 调用 者 
在 运算 时 使 


用 的 栈 


图 6-4 “C 语 言 中 的 函数 调用 

C 语 言 的 参数 从 后 面 开 始 入 栈 是 为 了 实现 像 printf() 这 样 可 变 长 参数 
的 函数 。 这 次 制作 的 Diksam 语 言 中 没有 可 变 长 参数 ， 因 此 没有 必要 特意 
人 
可 ) 。 


所 谓 返 回 地 址 ， 和 字面 意思 一 样 ， 指 癌 了 函数 终结 时 返回 的 地 址 。 当 函 
数 从 《〈 栈 的 ) 茶 处 开始 调用 之 后 ， 如 果 不 将 返回 地 址 保存 到 栈 中 ， 在 函 
数 结束 时 就 不 知道 要 返回 到 哪里 去 了 。 


当 所 有 局 部 变量 保存 到 栈 中 的 时 候 ， 栈 的 顶部 就 在 图 中 base 箭头 所 指 
的 位 置 。 利 用 以 pase 为 基准 的 偏 移 量 ， 可 以 指定 局 部 变量 或 者 参数 。 


* 男 外 ， 在 机 器 语言 中 保存 着 以 base 为 起 点 的 偏 移 量 引用 地 址 的 寄存 器 (register) ， 我 们 称 其 





























为 基 址 寄存 器 (寄存 器 在 机 器 语言 中 类 似 变 量 ) 。 本 书 并 不 是 关于 机 器 语言 的 书 ， 因 此 以 后 者 
用 base 来 表示 。 


在 之 前 的 if 语句 字 节 人 码 的 例子 中 ， 如 果 把 中 文 “push 变量 a 的 值 ” 写 成 
字 节 码 的 话 ， 应 该 像 下 面 这 样 ( 当 a 是 局 部 变量 的 情况 下 ) 。 


























push_stack_ int 8 # 6 是 变量 a 基于 base 的 偏 移 量 




















在 需要 声明 变量 的 语言 中 ， 全 局 变量 也 要 在 编译 时 全 部 决定 下 来 ， 因 此 
不 能 为 这 些 全 局 变量 指定 偏 移 量 的 编写。 比如 int 型 的 全 局 变量 的 值 问 
栈 中 保存 的 字 市 码 应 该 是 下 面 这 样 。 


push_static int 8 # 6 是 这 个 全 局 变量 的 索引 





























网 译 篇 


6.3 Diksam ver.0.1 的 实现 


6.3.1 目录 结构 


Diksam 为 了 使 编译 器 与 执行 器 (DVM) 分 离 ， 使 用 了 以 下 的 目录 
Cdirectory) 结构 。 





e。 compiler 
包含 Diksam 的 编译 器 代码 。 函 数 名 等 的 前 级 为 DKC ，main() 函数 
暂时 放 在 这 里 面 。 

。dvm 包含 Diksam 的 执行 器 (DVM) 代码 。 函 数 名 等 的 前 级 为 DVM 


。 share 包含 compiler、dvm 两 个 模块 共享 的 代码 。 函 数 名 等 的 前 组 
为 dvm 。 
严格 来 说 ， 这 里 打破 了 命名 规则 ， 这 是 因为 考虑 到 是 否 要 给 只 在 编 
译 占 和 DVM 中 使 用 的 代码 加 一 个 公共 的 前 级 ， 还 有 编译 器 也 是 依 
赖 DYM 的 。 

。 include 包含 在 多 个 目录 中 被 引用 的 头 文件 。 

。 memory 在 介绍 crowbar 的 时 候 ， 在 3.2.2 节 中 制作 的 内 存 管理 的 库 。 
函数 名 等 的 前 缀 为 MEM 。 

。 debug 在 介绍 crowbar 的 时 候 ， 在 3.2.2 节 中 制作 的 用 于 调试 的 库 。 函 





数 名 等 的 前 级 为 DBG 。 
在 表 6-2 中 描述 了 include 中 包含 的 头 文件 。 
表 6-2 ” 头 文件 一 览 
































Diksam 编 译 器 库 的 公用 头 文件 。 用 到 了 Diksam 编 译 器 的 用 户 程序 需要 #include。 


DVM.h Diksam 虚 拟 机 的 公 上 月 FE。 用 到 了 Diksam 执 行 器 的 用 户 程序 需要 #include 
= 


DVM _ codeh | 电 Diksam 编 详 生 成 的 学 节 码 对 象 。 足 义 了 DVM_Executable 结 构 体 的 头 文件 。 
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Diksam 编 译 器 和 DVM 都 会 使 用 到 这 个 文件 。 


头 文件 中 定义 了 用 于 Diksam 的 编译 器 生成 字 节 码 的 结构 体 DVM_FExecutable。 
Diksam 的 编译 器 和 DVM 都 会 使 用 这 个 文件 。 


编译 器 和 DVM 的 共享 模块 share.o 的 公用 头 文 件 。 
6.3.2 ”编译 的 概要 
编译 按照 下 面 的 顺序 进行 。 
1. 构建 分 析 树 
在 create.c 中 实现 。 
2. 修正 分 析 树 
在 这 个 阶段 中 进行 的 操作 有 ， 为 表达 式 分 析 树 中 的 各 节点 加 入 类 
型 ， 如 果 存 在 不 同类 型 间 的 运算 时 加 入 转换 节点 ， 将 表达 式 中 用 到 
的 变量 与 其 声明 绑 定 。 


上 述 操作 会 尽量 在 构建 分 析 树 的 同时 完成 ， 实 在 不 行 的 话 也 会 在 其 
他 阶段 中 进行 。 


此 阶段 (也 就 是 所 谓 的 “语义 分 析 ” 阶 段 〉 会 在 fix_tree.c 中 执行 。 
3. 生成 字 节 码 







































































以 自 上 而 下 的 顺序 过 历 分 析 树 生成 字 节 码 。 在 generate.c 中 实现 。 
6.3.3 ”构建 分 析 树 (create.c) 


构建 分 析 树 其 实 跟 crowbar 相 比 没有 什么 变化 。 如 果 一 定 要 说 有 什么 不 
同 的 地 方 ， 也 只 能 讲 讲 “ 程 序 块 ”的 处 理 了 。 


Diksam 局 部 变量 的 作用 域 在 它 声 明 的 程序 块 中 。 
比如 ， 表 达 式 中 使 用 了 叫 作 a 的 变量 时 ， 编 译 需 会 首先 探测 最 内 层 的 程 


序 块 中 是 否 声明 了 a ， 如 果 没 有 ， 再 逐个 探测 外 层 的 程序 块 。 为 了 实现 
这 种 处 理 方式 ， 在 程序 块 的 结构 体 中 包含 了 outer_block 成 员 。 








typedef struct Block tag { 
BlockType type; 
struct Block tag *outer_block; < 这 个 
StatementList *statement list; 
DeclarationList *declaration list; 
union { 


StatementBlockInfo statement; 
FunctionBlockInfo function; 
} parent; 
} Block; 








outer_block 保存 了 外 层 程序 块 的 指针 。 


为 了 设 定 outer_block ， 在 Block 结构 体 创建 实例 的 同时 ， 必 须要 知 
道 哪个 是 当前 程序 块 〈 新 创建 的 程序 块 的 外 层 程序 块 ) 。 因 此 ， 在 编译 
器 本 体 CDKC_Compiler ) 中 保存 了 current_block 。 





struct DKC_Compiler tag { 


MEM Storage compile_ storage; 
FunctionDefinition *function list; 

int function count; 
DeclarationList *declaration list; 
StatementList *statement list; 

int current _ line number; 

Block *current block; < 这 个 
DKC_InputMode input_ mode; 

Encoding source encoding; 


| | 


设 定 这 个 current_block 的 时 机 是 在 程序 块 开始 的 时 候 (解释 器 读 取 
到 { 的 时 候 ) 。 


比如 在 crowbar 中 crowbar.y 有 如 下 代码 。 


: LC statement list RC 


{ 
$$ = crb_create_ block($2); 


| LC RC 


$$ = crb_create block(NULL); 








这 个 方法 在 程序 块 结束 的 时 候 没 有 任何 动作 。 
为 了 能 够 设置 current_block ， 我 们 要 在 diksam.y 里 的 规则 中 插入 动 
从 


/* 总 之 还 是 想 要 实现 “LC statement_ list RC”*/ 
block 





2 
$$ = dkc open block(); 


statement list RC 


$$ = dkc close block($<block>2, $3); 





还 是 有 “LC RC” 的 规则 ， 这 里 省 略 了 。 








这 样 的 动作 被 称 为 租 入 动作 。 


yacc 在 处 理 供 入 动作 的 时 候 ， 会 藤 入 一 个 虚拟 的 目标 。 藤 入 动作 将 被 作 
为 这 个 虚拟 目标 的 动作 进行 处 理 。 即 为 : 


block 


: LC { 扔 入 动作 } statement list RC 
{ 





程序 块 结束 时 触发 的 动作 。 








} 





上 面 这 段 代码 ， 等 同 于 下 面 的 代码 。 


: LC dummy target statement list RC 
{ 


} 





程序 块 结束 时 触发 的 动作 。 








3 
dummy_target 


幅 入 动作 





虚拟 目标 部 分 并 没有 声明 类 型 ，〈( 如 果 想 要 使 用 的 话 〉 骨 入 动作 中 向 $$ 
设 定 的 值 ， 记 作 $< 类 型 > 序号 。 前 面 写 到 的 diksam.y 中 

向 dkc_close_block() 传递 的 参数 $<block>2，$3 ， 其 中 $<block>2 
就 是 租 入 动作 中 向 $$ 设 定 的 值 ，statement_1ist 就 变 成 $3 了 (由 于 
加 入 了 舱 入 动作 ， 向 后 移动 了 一 个 ) 。 


1 原来 是 $2 。 一 一 译 者 注 








6.3.4 ”修正 分 析 树 (fix_tree.c) 


在 fix_tree.c 中 将 会 扫描 create.c 生 成 的 分 析 树 ， 并 进行 错误 检查 、 添 加 数 
据 类 型 、 将 表达 式 中 的 标识 符 与 声明 绑 定 这 些 操 作 。 


下 面 的 项 目 将 要 说 明 的 是 这 些 操作 的 具体 内 容 。 
常量 表达 式 的 包装 


这 个 操作 在 crowbar 中 已 经 存在 了 ，Diksam 表 达 式 中 的 常量 表达 式 〈 像 
24 * 66 这 样 的 表达 式 ) 在 编译 时 就 会 被 包装 为 常量 。 


在 现在 的 Diksam 中 ， 以 数值 的 加 减 乘 除 和 模 、+ 进行 的 字符 串 连 接 、 单 
目 减 号 、 比 较 、 单 目 ! 为 对 象 。 


为 表达 式 添 加 类 型 





在 Diksam 表 达 式 的 分 析 树 中 ， 每 个 节点 都 保存 着 上 自己 的 类 型 。 在 
Diksam 编 译 器 中 定义 了 用 来 表示 表达 式 的 结构 体 〈( 见 下 面 代码 ， 
diksam.h) 。 


struct Expression tag { 

TypeSpecifier *type; < 这 里 保存 类 型 

ExpressionKind kind; < 用 kind 表 示 表 达 式 的 类 别 

int line number; 

union { < 以 共用 体 的 形式 保存 类 别 对 应 的 值 
DVM_Boolean boolean value; 
int int_value; 
double double value; 
DVM_Char *string value; 
IdentifierExpression identifier; 
CommaExpression comma,; 












































AssignExpression assign expression; 
BinaryExpression binary_expression; 
Expression *minus expression; 
Expression *]ogical_ not; 
FunctionCallExpression function call expression; 
IncrementOrDecrement inc dec; 

CastExpression cast; 





比如 3 这 样 的 整数 值 节点 被 定 为 int 型 ，int 型 变量 的 类 型 也 被 定 
为 int 型 ， 但 是 像 (1 + 8.5) 这 样 的 表达 式 就 要 同时 分 析 表 达 式 左边 和 
右边 的 情况 来 适当 地 扩展 类 型 。 


看 了 Expression 结构 体 的 定义 可 能 就 会 明白 ， 这 个 结构 体 的 type 成 员 
保存 了 表达 式 的 类 型 ， 它 所 指向 的 结构 体 TypeSpecifier 的 定义 如 下 
(定义 在 /include/DVM/DVM_code.h 中 ) 。 


struct TypeSpecifier tag { 
DVM_BasicType basic _ type; 
TypeDerive *derive; 


}; 





枚 举 类 型 DVM_BasicType 的 定义 如 下 所 示 。 
这 个 枚 举 类 型 能 够 表示 所 有 “基本 类 型 ”。 


typedef enum { 
DVM_BOOLEAN_TYPE， 
DVM_INT_TYPE, 
DVM_ DOUBLE _TYPE, 
DVM_STRING TYPE 

} DVM_ BasicType; 





另外 一 个 成 员 derive 以 “派生 类 型 ”的 方式 表示 ， 相 关 的 定义 如 下 (类 
型 定义 保存 在 diksamc.h 中 ， 但 是 在 DVM_code.h 中 也 有 与 其 相似 的 定 
义 ， 两 者 之 间 的 关系 将 在 后 面 的 章节 中 介绍 ) 。 


typedef enum { 
FUNCTION_DERIVE 
} DeriveTag; 


typedef struct { 
ParameterList *parameter list; 
} FunctionDerive; 


typedef struct TypeDerive tag { 
DeriveTag tag; 
union { 


FunctionDerive function d; 
} uu; 
struct TypeDerive tag *next; 
} TypeDerive; 


struct TypeSpecifier tag { 
DVM_BasicType basic type; 
TypeDerive *derive; 





枚 举 类 型 DeriveTag 是 一 种 派生 类 型 的 表现 。 在 现在 的 Diksam 中 还 没 
有 数组 之 类 的 类 型 ， 目 前 存在 的 派生 类 型 只 有 函数 类 型 
CFUNCTION_DERIVE ) 。 函 数 〈 派 生 类 型 ) 的 定义 保存 
在 FunctionDerive 中 ， 具 体 来 说 就 是 参数 的 类 型 信息 。 


到 底 什 么 是 派生 类 型 ? 这 个 话题 在 《征服 C 指 针 》 中 已 经 举例 做 了 大 致 
地 说 明 ”。 比 如 Diksam 的 print() 函数 ， 它 的 定义 就 成 了 下 面 这 样 。 


* 在 《征服 数组 和 指针 》 一 书 中 也 做 了 介绍 ， 可 以 访问 下 面 的 网 址 阅读 。 


http://avnpc.com/pages/devlang#pointer 


int print(string str); 


此 时 ， 被 称 为 print 的 标识 符 的 类 型 就 是 “返回 int 的 函数 〈 人 参数 
为 string 类 型 ) ” 。 在 应 用 了 函数 调用 运算 符 () 后 ， 可 以 把 < 函数 
(参数 为 string 类 型 ) ”这 部 分 看 作 是 int 型 。 


* 在 C 语 言 的 情况 下 ， 函 数 名 在 表达 式 中 会 被 转换 为 “指向 函数 的 指针 ”， 但 是 在 Diksam 中 没有 做 
这 种 费力 不 讨好 的 事 。 


因为 TypeDerive 包含 了 成 员 next ， 所 以 这 个 派生 类 型 可 以 用 链表 形式 
链接 。 因 此 ， 可 以 表示 为 “返回 ‘返回 int 的 函数 (参数 为 string 类 
型 ) ;的 函数 无 参数 ) ” 。 如 果 把 数组 也 看 作 是 派生 类 型 的 一 种 ， 那 
Cy 以 表示 为 “返回 ‘int 的 数组 的 数组 ;的 函数 (参数 为 string 类 

型 ) 2 


* 但 是 ， 现 在 还 没有 这 样 的 语法 结构 支持 这 种 类 型 的 声明 ， 所 以 无 法 使 用 。Diksam 最 终 会 引 
入 delegate 类 型 ， 但 与 函数 的 派生 无 关 。 


说 起 来 ， 现 在 还 不 能 声明 “函数 型 的 变量 *”， 也 没有 数组 。 因 此 ， 现 阶段 
函数 调用 的 语法 规则 如 果 像 下 面 这 样 定义 的 话 ， 就 没有 必要 表现 为 派生 
类 型 了 。 但 是 因为 在 下 一 个 版 本 中 考虑 到 要 引入 数组 ， 所 以 进行 了 如 下 
实现 。 





































































































primary_expression 
: IDENTIFIER LP parameter list RP 


了 


。 增加 转换 节点 
在 为 表达 式 添 加 类 型 的 过 程 中 ， 会 加 入 如 6.2.3 市 中 说 明 的 转换 节 
点 。 当 前 编译 时 默认 执行 的 类 型 转换 如 下 所 示 。 
o 双 目 运算 中 的 类 型 转换 
int 和 double 在 运算 时 会 将 int 转换 为 double 。 


还 有 ， 左 边 是 string 类 型 的 运算 时 ， 会 把 右边 转换 为 string 





。 赋值 时 的 类 型 转换 
赋值 时 ， 会 根据 左边 调整 右边 的 类 型 (+= 之 类 的 赋值 运算 符 
也 是 一 样 ) 。 
对 于 函数 的 实际 参数 以 及 参数 的 返回 值 在 赋值 时 也 进行 同样 的 
转换 处 理 。 


。 图 数 内 的 变量 声明 


在 处 理 int a; 这 样 的 声明 语句 时 ， 在 create.c 的 阶段 会 创建 
Declaration 结构 体 ， 其 定义 如 下 。 


typedef struct { 
char *name; 
TypeSpecifier *type; 
Expression *initializer; 


int variable index; 
DVM_Boolean is local; 
} Declaration; 





在 create.c 的 阶段 ，Declaration 结构 体 中 设置 了 变量 名 (name ) 、 类 
型 (type ) 以 及 构造 函数 (initializer ) 。 


由 于 声明 是 语句 的 一 种 ， 在 Declaration 结构 体 中 以 成 员 方 式 保 存 
着 Statement 结构 体 的 共用 体 ， 但 是 在 fix_tree.c 中 就 男 当 别 论 了 。 
fix_tree.c 中 将 Declaration 结构 体 链 接 成 了 一 个 链表 。 





/* 将 Declaration 结 构 体 连 成 链表 的 结构 体 */ 
typedef struct DeclarationList tag { 


Declaration *declaration; 
struct DeclarationList tag *next; 
} DeclarationList; 





在 函数 以 外 的 变量 声明 通过 链表 DeclarationList 保存 
在 DKC_Compiler 中 。 与 此 相对 ， 在 函数 内 声明 的 变量 的 作用 范围 是 程 
序 块 ， 因 此 DeclarationList 保存 在 程序 块 〈 即 Block) 中 。 


在 6.3.3 节 中 讲 过 ， 表 示 程 序 块 的 Block 结构 体 的 声明 ， 在 其 中 的 
declaration_ list 中 保存 了 当前 程序 块 中 的 声明 。 


函数 的 形式 参数 由 于 可 以 被 当做 函数 内 的 局 部 变量 来 使 用 ， 因 此 这 些 变 
量 的 声明 被 设置 在 了 函数 最 外 层 的 程序 匡 中 。 接 下 来 要 加 入 的 是 局 部 变 


里 


与 此 同时 ， 将 对 Declaration 结构 体 中 还 没有 设置 的 variable_index 
和 :is_local 进行 设置 。 


is_local 用 来 表示 是 否 有 局 部 变量 的 标识 ， 在 函数 内 声明 变量 的 同时 
设置 其 值 ，variable_index 为 函数 内 声明 的 局 部 变量 分 配 编号 〈 最 初 
的 形式 参数 为 0) 。 


局 部 变量 〈 包 括 参 数 ) 在 栈 中 被 创建 ， 栈 中 的 变量 可 以 使 用 基于 base 
的 偏 移 量 进行 引用 ， 具 体 请 见 6.2.5 节 。variable_index 就 是 这 个 “ 偏 
移 量 ”， 但 是 这 里 稍微 有 点 复杂 。 


接 下 来 我 们 看 一 下 Diksam 的 栈 ， 它 实现 了 DVM_Value 类 型 的 数组 ， 并 
且 这 个 数组 继续 增 大 下 标 进 行 扩 展 。Diksam 此 时 的 状态 如 图 6-5。 















































调用 func (1,2,3) 
variable index 的 值 函数 调用 者 
运算 时 使 用 






运行 时 的 偏 [3]| 局 部 恋 
移 量 从 这 里 一 一 一 一 


开始 偏 移 





[i 
所 使 用 的 栈 
D>> 


图 6-5 Diksam 的 栈 


在 现 阶段 的 编译 器 实现 中 ，variable_index 从 第 一 个 形式 参数 开始 顺 
序 增长 ， 其 中 并 没有 将 返回 信息 考虑 进去 。 因 此 ，variable_index 和 
运行 时 的 偏 移 量 只 能 直接 偏 移 到 返回 信息 下 面 的 局 部 变量 。 


当然 ， 因 为 已 知 返回 信息 的 字 节 大 小 ， 所 以 对 于 局 部 变量 来 说 ， 加 上 它 
的 大 小 后 继续 编写 并 非 难事 。 但 是 ， 返 回信 息 的 字 市 大 小 依赖 于 DVM 
的 实现 ， 因 此 我 想 尽 力 避 免 将 依赖 于 返回 信息 的 值 误 入 到 字 节 码 中 。 


最 重要 的 是 ， 现 在 的 字 节 码 只 生成 在 内 存 中 ， 并 没有 以 文件 等 形式 保存 
起 来 ， 因 此 即使 钥 入 了 (返回 信息 的 值 )， 实 际 上 也 没有 什么 坏处 。 但 
如 果 将 来 要 生成 与 Java 的 class 文 件 类 似 的 产 出 物 时 ， 可 能 就 会 出 现 问 
题 。 随 着 DVM 版 本 升级 ， 返 回信 息 的 字 节 大 小 也 会 随 之 发 生变 化 ， 会 
出 现 之 前 编译 的 文件 在 新 版 DVM 中 不 能 运行 的 困扰 。 


于 是 ，Diksam 编 译 器 姑且 先生 成 连续 的 编号 ， 在 执行 前 (加 载 DVM 之 
后 〉 再 进行 转换 (请 参考 6.4.1 节 的 小 标题 3) 。 


话说 回来 ， 因 为 Diksam 中 变量 的 作用 域 是 程序 块 ， 因 此 在 下 面 这 段 代码 


























生成 字 节 码 的 时 候 ，a 和 b 如 果 分 配 的 是 同一 个 内 存 空间 (同一 
个 variable_index ) 的 话 ， 就 可 以 节约 栈 空 间 了 ， 因 此 在 Diksam 中 的 
这 种 情况 下 会 为 它们 单独 生成 索引 。 
if (a -= 16) { 
int a; 


ee { 


double b; 











Diksam 会 为 没有 初始 化 的 局 部 变量 决定 取 值 ， 不 会 出 现 像 C 那 样 的 不 定 
值 。 在 调用 函数 的 时 候 ， 处 理 喜 会 用 0 或 者 nul1 之 类 的 值 为 变量 初始 
化 。 此 时 ， 虽 然 a 和 b 都 处 于 同一 内 存 空间 ， 但 是 由 于 类 型 不 同 ， 因 此 它 
们 不 能 够 用 同样 的 位 模型 进行 初始 化 。 


。 标识 符 和 声明 的 绑 定 


在 表达 式 中 保存 变量 或 者 函数 名 的 ， 是 保存 在 Expression 结构 体 中 的 
共用 体 成 员 IdentifierExpression 结构 体 。 











typedef struct { 
char *name; 
DVM_Boolean is _ function; 
union { 
FunctionDefinition *function; 
Declaration *declaration; 


} uu; 
} IdentifierExpression; 








这 里 的 function 或 者 declaration 中 存放 的 是 函数 定义 或 者 变量 声 
明 。 














在 搜索 局 部 变量 的 时 候 ， 会 在 与 “当前 程序 块 >? 相 互 连 接 的 Declaration 
结构 体 中 搜索 ， 因 此 ，ifx_xxx 系列 的 函数 会 把 当前 程序 块 作为 参数 传 


6.3.5 Diksam 的 运行 形式 一 一 DVM_Executable 











虽然 总 算 能 通过 fix_tree.c 生 成 字 节 码 了 ， 但 是 对 于 程序 的 运行 来 说 不 只 
需要 字 节 码 ， 还 需要 全 局 变量 列表 等 必 不 可 少 的 信息 。 在 Diksam 中 定义 
了 名 为 DVM_Executable 的 结构 体 用 来 保存 字 节 和 码 和 刚才 提 到 的 那些 相 
天 信息 ，generate.c 的 全 部 使 命 就 是 创建 DVM_Executable 结构 体 。 


因此 ， 首 先 要 用 下 面 这 段 代 码 来 说 明 一 下 DVM_Executable 结构 体 
(CDVM_code.h) 。 





struct DVM Executable tag { 
int constant pool count; 
DVM_ ConstantPool *constant pool; 
int global variable count; 
DVM Variable *global variable; 
int function count; 
DVM_Function *function; 


int code size; 
DVM_Byte *code; 

int line number size; 
DVM_ LineNumber *]ine_number; 

int need stack size; 





如 代码 所 示 ， 利 用 可 变 长 数组 保存 以 下 信息 。 


1. 常量 池 (constant_pool ) 
保存 常量 的 内 存 空间 。 


2. 全 局 变量 (global variable ) 

保存 全 局 变量 列表 。 

3. 函数 (function ) 

保存 函数 定义 。 将 函数 里 要 执行 的 语句 的 字 节 码 保存 在 其 内 部 
(DVM_Function 结构 体 ) 。 


4. 顶层 结构 的 代码 (code ) 











可 以 在 顶层 结构 中 书写 代码 ， 此 成 员 用 来 保存 这 些 代 码 生成 
字 节 码 。 


5. 行 号 对 应 表 (line_number ) 
保存 字 节 人 码 和 与 之 对 应 的 源 代码 的 行 号 。 


6. 栈 的 需要 量 (need_stack_size ) 
保存 顶层 结构 的 代码 对 栈 的 需要 量 。 
每 个 函数 对 栈 的 需要 量 都 保存 在 各 目的 DVM_Function 中 。 








6.3.6 ”音量 池 
保存 常量 的 内 存 空间 被 称 为 “常量 池 ”。 
比如 ， 将 double 值 2.5 入 栈 的 时 候 ，Diksam 的 字 节 人 码 表 示 为 : 


push_double 2.5 


在 实际 输出 字 节 码 的 时 候 ， 命 令 push_double 应 该 会 被 分 配 到 某 个 代 
号 〈 编 号 ) 。 在 DVM 中 会 分 配 到 十 进 制 的 6， 因 此 ，6 被 作为 一 个 字 节 
输出 到 字 市 码 中 。 那 么 2.5 该 怎么 办 呢 ? 在 我 的 环境 中 double 占 8 个 字 
节 ， 因 此 在 6 后 面 应 该 紧 接 着 输出 这 8 个 字 节 。 


老实 说 ， 因 为 现在 的 Diksam 只 在 内 存 中 保存 字 节 码 ， 编 译 器 环境 中 
double 型 的 字 节 表现 可 以 直接 输出 到 字 节 码 中 。 但 是 ， 如 果 将 字 节 三 
输出 到 文件 的 时 候 就 会 出 问题 了 。 这 是 因为 执行 字 节 码 的 机 器 和 编译 字 
节 码 的 机 器 可 能 会 用 不 同 的 形式 表示 double 型 数据 ! 。 

1 从 而 导致 解释 字 节 码 的 方式 也 不 同 。 
“ 字 节 码 中 以 某 种 正规 化 的 表现 方式 进行 保存 ， 读 取 的 时 候 再 进行 转 
换 。*” 在 进行 这 个 处 理 的 时 候 ， 如 果 字 节 码 中 间 突 然 出 来 一 个 要 转换 的 
2.5， 那 么 处 理 起 来 会 很 贱 烦 。 男 外 ， 不 止 是 实数 ， 字 符 串 也 是 一 样 ， 
如 果 在 字 节 码 中 突然 出 现 了 一 个 区 入 的 “hello, worldn”， 这 在 普通 的 程 
序 员 看 来 也 没 那么 美观 吧 。 


因此 我 们 在 这 里 使 用 了 第 量 池 。 篆 量 池 数 组 中 的 各 个 元 素 组 成 了 下 面 的 








译 者 注 

















结构 体 。 


typedef enum { 
DVM_CONSTANT_INT, 
DVM_CONSTANT_DOUBLE, 
DVM_CONSTANT_STRING 
} DVM_ ConstantPoolTag; 


typedef struct { 


DVM_ConstantPoolTag tag; 
union { 
int c_int; 
double c_double; 
DVM_ Char *c_ string; 
} yu; 
} DVM ConstantPool; 





I 把 保存 int 、double 或 者 字符 串 的 成 员 定 义 为 一 个 


在 Diksam 的 字 节 码 中 ， 下 列 常 量 不 会 被 艇 入 到 其 中 ， 而 是 保存 到 常量 
池 。 字 节 码 中 只 保存 常量 池 中 对 应 的 索引 值 。 

。 负数 或 者 65536 以 上 的 整数 

。 0 或 者 1 以 外 的 实数 

。 字符 串 
1~2 字 节 的 整数 以 及 实数 0 或 者 1 使 用 下 列 命令 进行 处 理 。 








e。 push _ int 1ibyte 
在 字 节 码 上 用 这 个 命令 将 其 后 的 1 个 字 节 作为 整数 保存 。 
e。 push_int_2byte 
这 个 命令 将 其 后 的 两 个 字 市 作为 整数 并 以 大 尾 序 保 
子 。 
e push double 6 
实数 运算 中 出 现 0 的 时 候 使 用 此 命令 〈 这 里 效仿 了 JVM) 。 
e push double 1 
实数 运算 中 出 现 1 的 时 候 使 用 此 命令 (这 里 也 效仿 了 JVM) 。 


前 面 提 到 过 字 市 码 中 只 保存 着 常量 池 中 用 来 引用 常量 的 索引 值 ， 因 为 1 








个 字 节 存 不 下 这 个 索引 值 ， 所 以 现在 Diksam 在 实现 时 使 用 了 两 个 字 市 ， 
如 宁 使 用 push_double 这 样 的 命令 会 将 其 后 的 两 个 字 节 的 整数 值 以 大 
尾 序 保存 起 来 。 可 是 ， 两 个 字 节 是 否 就 够 用 了 呢 ? 这 是 最 大 的 其 仿 。 实 
际 上 这 里 也 是 在 效仿 JVM， 我 想 可 能 修正 一 下 这 里 会 更 好 。 


另外 ， 相 同 的 常量 在 程序 中 多 次 出 现 的 时 候 ， 虽 然 在 常量 池上 分 配 同样 
的 入 口 可 以 节约 常量 池 的 内 存 空 间 ， 但 是 现在 的 Diksam 没 有 这 么 做 。 这 
里 照例 只 是 偷 了 个 懒 而 已 。 

补充 知识 “YARV 的 情况 


Diksam 将 一 部 分 常量 的 值 保存 到 了 和 常量 池 中 。 这 个 结构 体 实 际 上 是 效仿 
JVM， 但 是 在 Ruby 的 VM， 也 就 是 YARV (Yet A nother R uby V MI) 
中 ， 就 把 常量 值 嵌 入 到 了 字 节 码 中 。 

这 么 做 的 理由 是 ， 像 常量 池 这 样 把 常量 值 保 存在 其 他 地 方 并 通过 配置 索 
引 指 定 操 作 数 的 方法 ， 可 能 会 对 性 能 产生 不 利 的 影响 [6 (因为 是 间接 访 
加 由 高 

还 有 ， 在 YARV 中 的 指令 不 止 1 字 节 ， 在 处 理 器 中 为 其 分 配 了 1 个 int 的 
大 小 (这 意味 着 YARV 的 指令 不 是 一 个 严格 的 “ 字 节 码 ”) 。 虽 然 可 惜 了 
这 些 内 存 ， 但 是 对 速度 还 是 非常 有 利 的 。 

Diksam 如 果真 的 考虑 性 能 的 话 ， 也 许 应 该 向 YARV 学 习 一 下 ”。 

*Java 当 初 的 使 用 方法 被 假设 为 是 从 网 络 下 载 的 小 应 用 程序 ， 因 此 字 节 码 是 个 必然 的 选择 。 
6.3.7 全 局 变量 

DVM_Executable 结构 体 的 global_variable 成 员 ， 束 如 同 其 字面 的 
含义 表示 的 是 全 局 变量 。 从 字 节 码 引 用 全 局 变量 的 时 候 ， 就 会 使 用 到 这 
个 DVM Variable 型 的 数组 的 索引 。 

比如 ， 将 整数 型 的 全 局 变量 的 值 push 到 栈 中 的 命令 


是 push_static int 。 


使 用 上 述 命 令 ， 将 其 后 的 两 个 季节 以 六 尾 序 存 入 数组 中 并 延续 索引 纲 
写 。 















































DVM Variable 的 定义 如 下 。 


typedef struct { 
char *name; 
DVM_TypeSpecifier *type; 


} DVM Variable; 











一 目 了 然 ， 这 里 表示 的 是 全 局 变量 的 名 称 和 类 型 。 


有 的 类 型 是 为 了 在 开始 运行 的 时 候 进 行 初始 化 以 及 垃圾 回收 时 使 
用 的 。 


变量 名 到 目前 为 止 还 没有 用 到 。 前 面 也 提 到 过 ， 利 用 索引 从 字 市 码 中 引 
用 全 局 变量 。 但 是 我 想 ， 在 实现 调试 占 的 时 候 ， 变 量 名 是 一 个 必要 的 信 


4D Oo 


另外 ， 使 用 DVM_TypeSspecifier 结构 体 来 保存 全 局 变量 的 类 型 。 在 编 
译 时 类 型 信息 被 保存 到 类 型 信息 TypeSpecifier 结构 体 中 。 也 就 是 
说 ， 在 generate.c 中 实现 从 TypeSpecifier 结构 体 

到 DVM_TypeSpecifier 结构 体 的 复制 。 


6.3.8 ”函数 


表示 函数 的 结构 体 DVM_Function ， 其 定义 如 下 所 示 。 


typedef struct { 
DVM_TypeSpecifier *type; 
char *name; 
int Parameter_count ; 
DVM_LocalVariable *parameter; 
DVM_Boolean is implemented; 
int local variable count; 
DVM_ LocalVariable *]ocal variable; 

















int code size; 

DVM_Byte *code; 

int line number size; 

DVM_ LineNumber *]ine_number; 

int need stack size; 
} DVM_Function; 





type 是 返回 值 的 类 型 ，name 是 函数 名 。parameter 和 
local_variable 用 下 面 给 出 的 结构 体 保 存 名 称 和 类 型 。 类 型 是 在 初始 
化 局 部 变量 时 使 用 的 ， 但 是 现在 还 没有 用 到 。 





typedef struct { 
char *name; 
DVM_TypeSpecifier *type; 


} DVM LocalVariable; 





在 DVM_Function 中 的 is_implemented 是 一 个 标志 。 它 表示 “这 个 函 
数 是 否 在 这 个 DVM_Executable 中 实现 ”。 


比如 print() 函数 由 原生 函数 组 成 ， 使 用 者 编写 的 Diksam 程 序 中 并 没 
有 对 其 进行 过 定义 ， 因 此 ， 这 个 函数 对 应 的 DVM_Function 的 

is implemented 为 false 。 即 使 是 这 样 的 函数 也 要 被 登记 

到 DVM_Function 的 对 应 表 中 ， 因 为 在 函数 调用 的 时 候 必须 要 通过 
DVM_Function 对 应 表 中 的 索引 值 。 

DVM_Function 结构 体 的 成 员 ， 指 针 code 指 辣 该 函数 对 应 的 字 节 码 。 


6.3.9 ”顶层 结构 的 字 节 码 


DVM_Executable 结构 体 的 成 员 ， 指 针 code 指向 顶层 结构 对 应 的 字 市 
码 。 关 于 如 何 生成 字 节 码 将 在 6.3.12 节 中 作 介 绍 。 

















6.3.10 行 号 对 应 表 


对 于 执行 字 节 人 码 的 语言 来 说 ， 发 生 错 误 时 ， 如 果 不 能 提示 发 生 的 错误 在 
源 文件 中 的 行 号 ， 对 于 使 用 者 来 说 束 太 不 友好 了 。 因 

此 ，DVM_Executable 的 成 员 line_number 保存 了 字 节 码 上 的 位 置 对 
应 的 源 文件 的 行 号 。 

这 种 对 应 关系 的 类 型 用 DVM_LineNumber 结构 体 表示 ， 定 义 如 下 。 
typedef struct { 


int line_number;/* 源 代 码 的 行 号 */ 
int start_pc;/* 字 节 码 的 开始 位 置 */ 











int pc_count;/* 从 start_pc 开 始 ， 接 下 来 有 几 个 字 节 的 指令 对 应 着 同一 line_nu 
} DVM LineNumber; 





上 述 信息 ， 在 generate.c 的 generate_code() 函数 中 与 字 节 码 同时 生 
成 。 因 为 1 行 源 代码 通常 会 生成 多 个 指令 ， 所 以 在 为 同一 行 源 代码 生成 
编码 时 ， 不 增加 DVM_LineNumber 对 应 表 的 元 素 ， 只 增加 pc_count 。 
这 里 只 保存 了 顶层 结构 的 行 号 对 应 表 ， 函 数 内 的 行 号 保存 在 各 上 自 的 
DVM_Function 对 应 表 中 。 


6.3.11 栈 的 需要 量 


在 crowbar 中 ， 在 每 次 进行 入 栈 操 作 时 ， 都 会 检查 栈 的 空间 。 只 要 空间 
不 足 就 会 用 realloc() 进行 扩展 。 


但 是 ，Diksam 是 执行 字 市 码 的 语言 ， 因 此 我 们 对 它 的 执行 速度 还 是 有 所 
期 每 的 ， 所 以 我 们 在 这 里 要 避免 “每 次 部 进行 栈 空间 检查 ”的 做 法 。 


因此 ， 在 DVM_Executable 的 成 员 need_stack_size 中 保存 了 顶层 结 
i 各 函数 需要 的 栈 空间 大 小 保存 在 DVM_Function 
对 以 


这 里 的 重点 是 : 不 论 是 顶层 结构 还 是 函数 ， 它 们 所 需要 的 栈 空间 大 小 者 
是 在 编译 时 决定 的 。 里 然 在 前 面 已 经 提 到 过 ， 但 是 在 这 里 还 要 再 
说 一 下 ，DVM 将 完全 信任 编译 占 生 成 的 字 市 码 。 男 外 ，Diksam 的 编译 
需 绝 对 不 会 生成 下 例 这 样 的 字 节 码 。 


16 push_int_1byte 5 
12 jump 16 


在 这 个 例子 中 ， 会 无 限 循环 地 将 5 入 栈 ， 直 到 内 存 溢 出 。 但 是 ，Diksam 
从 语法 上 就 杜绝 了 编写 这 种 (能 生成 类 似 于 上 述 例子 中 字 节 码 的 ) 源 代 
人 码 的 可 能 。 因 此 ， 扫 描 全 部 push 系列 的 指令 ， 并 计算 出 push 所 需 内 存 
总 量 ， 用 此 方法 就 可 以 计算 出 顶层 结构 或 者 各 函数 所 需 的 栈 空间 的 大 小 
了 《在 现在 的 实现 中 ， 并 没有 把 出 栈 的 内 存 计算 在 内 ， 因 此 这 个 值 会 略 
大 一 些 ， 但 是 多 一 些 的 空间 并 不 会 造成 问题 ， 所 以 就 保持 现状 了 ) 。 各 
个 指令 消耗 的 栈 空 间 量 将 会 保存 在 dvm_opcode_info 数组 中 (请 参考 
6.3.12 市 ) 。 


基于 上 述 做 法 ， 检 查 栈 大 小 有 以 下 两 个 最 佳 时 机 。 
































。 程序 开始 执行 时 ， 检 查 栈 空间 是 售 能 满足 顶层 结构 的 需要 。 

。 函数 开始 执行 时 ， 检 查 栈 空间 是 否 能 满足 这 个 函数 的 需要 。 在 出 现 
深层 递归 需要 消耗 大 量 栈 空间 的 情况 下 ， 会 数 度 进行 检查 ， 对 栈 空 
间 的 需求 也 会 迅速 地 增长 。 





6.3.12 ”生成 字 节 人 (generate.c) 
对 于 生成 字 节 码 来 说 ， 大 部 分 麻烦 事 已 经 在 fix_tree.c 中 做 完了 ， 因 此 
generate.c 要 做 的 事情 ， 大 概 就 只 剩 下 “按照 自 上 而 下 的 顺序 壳 历 分 析 树 
然后 吐出 字 节 码 ” 了 。 
下 面 我 们 就 来 看 一 下 到 底 要 “吐出 ”的 是 什么 样 的 字 节 但 。 

。 字 贡 人 码 的 结构 
在 这 个 小 节 我 将 整理 出 至 此 为 止 一 直 没 有 明确 的 字 节 码 的 结构 。 
字 节 人 码 由 命令 (指令 ，instruction) 和 操作 数 (operand) 组 成 。 
操作 数 可 以 想 成 是 C 等 语言 中 函数 的 参数 。 比 如 在 例子 push_int 16 中 
push_int 指令 处 理 了 一 个 操作 数 ， 这 个 指令 的 操作 数 是 常量 池 中 的 索 
引 值 ， 这 个 值 是 10。 


Diksam 的 字 节 码 以 字 节 为 单位 《人 否则 融 不 能 叫 " 字 节 码 ”了 ) 。 指 令 也 用 
人 水表 友 : 


还 是 以 上 面 的 例子 来 说 ，push_int 对 应 的 值 是 3。 这 里 用 枚 举 类 型 
DVM_Opcode 来 表示 (DVM _code.h) 。 














typedef enum { 
DVM_PUSH_INT_1BYTE = 1, 
DVM_PUSH_INT_2BYTE， 
DVM_PUSH_INT, < 这 个 是 push_int (也 就 是 3) 

DVM_PUSH_DOUBLE 6， 





DVM_PUSH_DOUBLE_1， 
DVM_PUSH_DOUBLE ， 
DVM_PUSH_STRING 
《中 间 省 略 ) 

} DVM Opcode; 




















操作 数 有 以 下 三 种 。 


。 1 个 字 布 的 整数 。 直 接 保存 跟 在 指令 后 面 的 操作 数 。 

。 两 个 字 节 的 整数 。 把 跟 在 指令 后 面 的 操作 数 作为 大 尾 序 保存 。 

。 季 量 池 的 索引 值 。 该 值 现在 是 两 个 字 节 ， 把 跟 在 指令 后 面 的 索引 值 
作为 大 尾 厅 保存 。 


什么 样 的 命令 处 理 什 么 样 的 操作 数 都 定义 在 了 /share/opcode.c 中 。 


OpcodeInfo dvm opcode info[] = { 
"dummy", "",， 6}, 

"push_int 1lbyte", "b", 1}, 
'push_int 2byte", "s", 1}, 
'push_int", "p", 1}, 

'push_ double 6", "" 











'push_ double 1", "" 
'push double", "p" 
'push_string", "p" 


《以 下 省 略 ) 


{ 

{ 

f 
f 
f 
f 
f 
f 





这 个 数组 用 于 调试 时 反 编译 功能 (disassemble.c) 之 外 的 必须 顺序 分 析 
字 节 人 码 的 情况 。 


这 里 的 b 代表 1 个 字 节 的 整数 ，s 代表 两 个 字 市 的 整数 ，p 代表 币 量 凶 的 
索引 值 。 在 表示 字符 串 的 时 候 ， 必 须要 使 用 取得 多 个 操作 数 的 指令 。 接 
下 来 的 0 和 1 的 数值 就 是 它们 指令 本 喘 所 需 的 栈 空间 。 请 参考 6.3.11 广 。 

。 生成 字 市 但 


为 了 生成 字 节 码 ， 在 generate.c 中 包含 了 以 下 函数 。 


static void 
generate code(OpcodeBuf *ob, int line number, DVM Opcode code, ...) 





这 个 函数 在 获取 指令 和 行 写 的 同时 ， 采 用 可 变 长 参数 来 传递 操作 数 。 使 
用 的 例子 如 下 。 





/* 生成 push_int 的 代码 。 
* cp_idx 是 常量 池 的 索引 值 。 





*/ 
generate code(ob, expr->line number, DVM PUSH_INT, cp_idx); 





6.3.13 ”生成 实际 的 编码 
本 节 将 要 介绍 Diksam 源 代码 的 组 成 元 素 实 际会 转换 成 什么 样 的 字 节 码 。 


。 标 识 符 
标识 符 有 以 下 几 种 。 
。 局 部 变量 
。 全 局 变量 
。 函数 


局 部 变量 《是 左边 值 的 情况 下 ) 将 会 生成 如 表 6-3 的 字 布 码 。 操 作 数 全 
部 用 两 个 字 节 的 整数 、 栈 上 的 索引 值 〈 基 于 base 的 偶 移 量 ) 表示 。 


表 6-3 局 部 变量 相关 的 指令 











push_stack_int 将 int 类 型 的 局 部 变量 值 保存 到 栈 中 





push_stack_double | 将 double 类 型 的 局 部 变量 值 保存 到 栈 中 
将 string 类 型 的 局 部 变量 值 保存 到 栈 中 











这 三 个 指令 只 是 针对 不 同 的 类 型 ， 但 做 的 事情 都 一 样 。 在 枚 举 类 型 
DVM_Opcode 中 ， 指 令 以 int 、double 、string 的 顺序 排列 ， 因 此 生 
成 字 市 码 的 操作 可 以 用 如 下 的 方式 进行 。 


/* push _ stack int */ 
generate code(ob, expr->line number, 
DVM_PUSH_STACK_INT 
+ get opcode type offset(expr->u.identifier 


.U.declaration 


->type->basic type), 
expr->u.identifier.u.declaration->variable index); 





get_ opcode_type_offset() 函数 ， 如 果 参 数 是 boolean 或 者 int 则 
返回 0。 如 果 是 double 则 返回 1，string 则 返回 2 。 


* 实 际 上 在 现在 的 实现 中 ， 局 部 变量 保存 在 栈 中 ， 栈 的 实体 是 DVM_Value 共用 体 的 数组 ， 因 此 
这 种 指令 本 号 没有 必要 根据 类 型 区 别 使 用 。 但 是 ， 考 虑 到 要 以 字 节 为 单位 计算 局 部 变量 的 地 
址 ， 为 了 在 实现 上 节省 内 存 空 间 ， 在 Diksam 中 还 是 分 开 变 成 了 多 个 指令 


当 参 数 是 poolean 的 时 候 也 返回 0， 这 是 因为 虽然 在 Diksam 语 言 中 
有 boolean 类 型 ， 但 是 DVM 中 并 没有 boolean 类 型 ， 所 以 用 int 代 
蔡 。 


在 全 局 变量 中 使 用 push_( 类 型 名 )_static 指令 代替 push_ (类 型 
名 )_stack 指令 。 操 作 数 是 全 局 变量 的 索引 值 。 


在 函数 的 情况 下 ， 根 据 push_function 的 索引 (DVM_Function 数组 
的 下 标 ) 入 栈 ， 但 是 在 执行 时 被 改写 成 了 别 的 方式 。 详 细 请 参考 6.4.1 
i 


。 双 目 运算 符 


双 目 运算 符 生 成 的 指令 如 表 6-4 所 示 。 表 中 (类 型 ) 的 部 分 ， 请 看 作 
是 int 、double 或 者 string ， 但 是 string 只 有 相 加 和 比较 的 运算 。 


表 6-4 双 目 运算 符 的 指令 


add (类 型 ) | 加 法 运算 


sub (类 了 了 > 


ml 
Te 
到 re 







































































ee sme 
me | 不 入 | 








&& logical_and | 逻辑 AND 


1 ew lon | 


这 些 指令 没有 操作 数 。 











单 目 运算 符 有 单 目的 减 号 和 逻辑 非 (!) 。 也 可 以 把 类 型 转换 看 作 是 一 
种 单 目 运 算 符 ( 目 前 会 由 编译 占 上 自动 搬入) 。 
单 目 运算 符 的 指令 如 表 6-5 所 示 。 


表 6-5 单 目 运算 符 的 指令 


minus_ (类 型 ) 符号 反 转 
EEC 
eR 





。 赋值 


现 阶段 的 Diksam 中 还 没有 数组 和 对 象 的 成 员 ， 因 此 赋值 必然 是 以 “变量 
名 = 表达 式 ; ”的 形式 。 


所 以 ， 我 们 首先 计算 右边 ， 其 结果 值 可 以 从 栈 中 取得 后 ， 使 
用 pop_stack_xxx 或 者 pop_static xxx 让 变量 出 栈 。 


与 C 语 言 相同 ，Diksam 的 赋值 本 身 也 是 在 获取 表达 式 的 值 〈“ 因 此 也 有 可 
能 出 现 像 a = b = cj 这 样 的 赋值 方式 ) 。 也 就 是 说 ， 在 赋值 结束 后 ， 
栈 上 肯定 会 留 下 一 个 值 。 计 算 右 边 的 值 ， 在 出 栈 赋 给 变量 后 栈 上 就 没有 
值 了 ， 因 此 需要 使 用 duplicate 指令 复制 栈 顶 的 值 并 将 其 入 栈 。 


但 是 ， 实 际 上 很 少 有 人 会 写 a = b = cj; 这 样 的 赋值 语句 〈 也 可 以 说 是 








ee ， 大 部 分 的 情况 没有 必要 特意 使 用 duplicate 复制 栈 上 的 


因此 ， 生 成 赋值 表达 式 的 时 候 ， 要 把 “这 个 表达 式 是 否 是 表达 式 语句 的 
顶级 表达 式 ” 作 为 标识 进行 传递 ， 如 果 (当前 表达 式 ) 是 表达 式 语 句 的 
顶级 就 不 需要 使 用 duplicate 了 。 


。 图 数 调用 
Diksam 中 函数 调用 时 ， 栈 会 像 图 6-6 所 示 进 行 
首先 ， 按 照 从 前 问 后 的 顺序 对 参数 进行 计算 ， 并 将 其 入 栈 (Diksam 中 没 
有 可 变 长 参数 ， 因 此 没有 必要 像 C 语 言 一 样 从 后 面 开 始 入 栈 ) 。 


调用 func (1, 2,3) 
variable index 的 值 | 函数 调用 者 

运算 时 使 用 
的 术 







返回 信息 

( 返回 地 址 等 ) 

运行 时 的 偏 
移 量 从 这 里 一 一 ”3 
开始 偏 移 | 


func () 中 的 运算 
所 使 用 的 栈 


增长 方向 


图 6-6 ”函数 调用 时 的 栈 


接着 ， 将 “函数 ”入 栈 〈 这 个 “函数 ”其实 是 DVM_VirtualMachine 结构 体 
中 Function 的 索引 值 。 详 细 请 参考 6.4.1 节 ) 。 正 如 前 面 写 到 的 ， 
Diksam 中 调用 函数 使 用 () 运算 符 ， 函 数 名 本 身 就 是 一 个 表达 式 。 使 





用 push_function 将 这 个 表达 式 的 值 入 栈 。 
然后 ， 执 行 jnvoke ， 从 而 执行 被 调用 的 函数 。invoke 将 保存 
着 push_function 的 值 从 栈 中 移出 ， 创 建 承载 着 返回 信息 的 局 部 变量 
的 内 存 空间 ， 并 让 开始 函数 执行 其 一 系列 动作 。 
详细 请 参考 6.4.3 节 。 
。 控制 结构 


如 6.2.4 节 中 所 述 ， 像 if 语句 这 样 的 控制 结构 在 字 节 码 中 是 使 用 跳 转 命 
令 来 实现 的 。 

为 了 实现 跳 攀 ， 就 必须 要 知道 跳 转 目标 的 地 址 。 这 里 说 的 “地 址 ?是 指 
在 DVM_Executable 中 的 每 个 函数 ， 或 者 是 保存 在 顶层 结构 中 的 字 节 码 
的 数组 (DVM_Byte *code) 的 下 标 。 


比如 有 下 面 这 样 一 段 代 码 。 

















push_static int 6 # 将 变量 a 的 值 入 栈 
push_int_1byte 6 # 将 6 入 栈 

eq_int # 比较 

jump_if_ false 17 # 如 果 不 相等 则 跳 转 到 17 
push_int_1byte 1 # 为 了 赋值 将 1 入 栈 
pop_static int 6 # 将 1 出 栈 赋值 给 a 

jump 22 # 跳 到 22〈 这 段 代 码 的 末尾 ) 
push_int_1byte 5 # 为 了 赋值 将 5 入 栈 
pop_static int 6 # 将 5 出 栈 赋值 给 a 























这 段 代码 中 ， 最 左边 的 数字 就 是 “地 址 ”。 为 了 迎合 机 器 语言 中 的 说 法 ， 


某 些 特定 的 地 址 使 用 “地 址 码 XX” 的 说 法 表示 。 


在 上 面 的 例子 中 ，a 和 0 比较 后 ， 在 地 址 码 6 的 地 方 判断 如 果 相 等 就 跳 转 
到 地 址 码 17。 但 是 问题 在 于 ， 在 地 址 码 6 的 jump_if_false 命令 生成 的 
时 候 ， 还 不 知道 要 跳 转 的 目标 就 是 “地 址 码 17”。 


因此 ，Diksam 的 编译 器 采用 了 以 下 的 方法 。 
1. 跳 转 命令 等 在 必须 使 用 地 址 的 时 候 ， 使 用 get_label() 函数 取得 


I 
这 里 取得 的 “标签 "是 指 ， 标 签 对 应 表 的 下 标 。 

: Re 在 要 写 入 跳 转 目标 地 址 的 地 方 写 入 暂 定 的 
未 签 。 

3. 确定 下 来 标签 要 代替 的 位 置 的 地 址 后 ， 使 用 set_label() 函数 ， 
将 地 址 存 入 标签 对 应 表 。 

4. 字 节 码 全 部 生成 后 ， 根 据 标签 对 应 表 ， 将 写 入 暂 定 的 标签 的 地 方 蔡 
换 成 真正 的 地 址 。 


6.4 Diksam 虚 拟 机 


编译 (生成 字 节 码 ) 完成 以 后 ， 束 要 放 到 Diksam 虚 拟 机 (DVM: D 
iksam V irtual M achine) 中 执行 了 。 




















DVM 在 实现 上 使 用 DVM VirtualMachine 结构 体 来 表示 
(dvm_pri.h) 。 


struct DVM VirtualMachine tag { 
Stack stack; 
Heap heap; 
Static static v; 
int pc; 


2 
Function *function; 
int function count; 
DVM_ Executable *executable; 





结构 体 的 前 三 个 成 员 保 存 了 DVM 运 行 时 的 记忆 空间 。 如 代码 所 示 ， 
DVM 具 有 以 下 三 个 记忆 空间 。 








1. 栈 








前 面 已 经 说 过 ， 需 要 在 栈 上 创建 空间 的 有 局 部 变量 、 函 数 的 参数 或 函数 
返回 的 返回 信息 等 。 

DVM_VirtualMachine 结构 体 的 成 员 stack ， 它 的 类 型 stack 如 下 所 
示 。 


typedef struct { 
int alloc size; 
int stack pointer; 
DVM Value *stack; 


DVM_Boolean *pointer flags; 
} Stack; 





一 日 了 然 ， 栈 的 实体 就 是 DVM_Value 类 型 的 数组 。 


DVM Value 相当 于 crowbar 中 的 CRB_Value ， 是 一 个 能 够 保存 所 有 (在 
Diksam 中 可 以 使 用 的 ) 类 型 的 共用 体 (DVM.h) 。 
typedef union { 


int int_ value; 
double double value; 


DVM_Object *object; 
} DVM Value; 








DVM_Value 与 CRB_Value 不 同 ， 不 会 根据 类 型 打上 不 同 标记 。 衣 态 语 
言 中 类 型 是 可 以 被 识别 的 ， 因 此 不 再 需要 标记 类 型 了 。 


但 是 ， 在 垃圾 回收 的 时 候 ， 仅 依靠 静态 的 信息 判断 栈 上 的 值 是 否 是 指针 
还 是 有 些 困难 的 ， 但 也 可 以 通过 函数 定义 取得 局 部 变量 或 者 参数 的 类 
型 。 同 样 是 保存 在 栈 上 ， 计 算 过 程 中 的 值 的 类 型 却 很 难 弄 清楚 。 


因此 ，Stack 结构 体 的 pointer_flags 数组 保存 着 栈 上 的 值 是 否 是 指 
针 。pointer_flags 数组 和 stack 的 大 小 相同 ， 可 以 使 用 同一 个 下 标 
进行 引用 。 


stack 结构 体 的 成 员 stack_pointer 是 栈 指 示 器 (stack pointer) ， 它 
保存 着 栈 顶 的 索引 值 。 














栈 指 示 喜 所 指 的 是 下 次 要 入 栈 的 元 聚 的 索引 值 。 实 际 上 已 入 栈 元 系 的 索 
引 值 是 一 个 小 于 栈 指示 器 -1 的 值 。 


2. 堆 


堆 是 一 个 通过 引用 进行 访问 的 内 存 区 域 。 现 在 的 Diksam 中 并 不 存在 类 和 
对 象 ， 因 此 现在 的 堆 中 只 保存 字符 串 。 


和 crowbar 一 样 ， 堆 上 的 对 象 以 链表 形式 保存 。 


/* 保存 对 象 的 结构 体 */ 

struct DVM Object tag { 
ObjectType type; 
unsigned int marked:1; 
union { 

DVM_String string; 

} uy; 
struct DVM Object tag *prev; 
struct DVM Object tag *next; 





}; 


/* 堆 的 结构 体 */ 

typedef struct { 
int current heap_size; 
int current threshold; 
DVM_Object *header; 

} Heap; 




















3. 静态 (static〉 空间 








DVM_ VirtualMachine 的 static_v 成 员 用 来 保存 全 局 变量 〈 因 
为 static 和 C 语 言 的 关键 字 冲 突 ， 所 以 成 员 的 名 字 用 static_v 表 
小 


Static 结构 体 的 定义 如 下 。 





typedef struct { 
int variable count; 
DVM_Value *yariable; 

} Static; 


| | 
如 代码 所 示 ， 结 构 体 中 保存 着 DVM_Value 的 数组 。 


在 使 用 push_static_int 等 指令 引用 全 局 变量 时 ， 作 为 操作 数 传递 给 
指令 的 就 是 这 个 数组 的 下 标 。 


男 外 ， 在 DVM_VirtualMachine 内 用 于 和 骨 入 到 字 节 人 码 中 的 值 只 能 来 自 同 
一 个 数组 的 下 标 ， 也 就 是 说 ， 在 现在 的 Diksam 语 言 中 ， 一 个 DVM 只 能 
对 应 一 个 DVM_Executable 。 


但 是 很 明显 ， 在 DVM VirtualMachine 内 不 只 保存 了 一 
个 DVM_Executable 。 为 了 解决 这 个 问题 ， 有 必要 在 多 个 源 文件 链接 并 
执行 的 时 候 进行 纠正 (请 参考 8.1.5 闻 ) 。 


DVM_VirtualMachine 还 有 一 个 属性 pc 用 来 表示 程序 计数 器 
(program counter) 。 


程序 计数 器 在 字 市 码 中 起 到 保存 当前 正在 执行 的 指令 地 址 的 作用 (这 里 
说 的 “地 址 ”是 指 保存 看 字 节 人 码 的 数组 的 下 标 〉。 


因此 ， 在 使 用 跳 转 命令 时 ， 只 需要 把 程序 计数 器 改写 为 要 跳 转 的 目标 残 
可 以 了 。 但 是 ， 实 际 上 DVM_ VirtualMachine 结构 体 的 成 员 pc 在 程序 
开始 执行 后 立刻 就 被 复制 到 了 局 部 变量 ， 但 在 之 后 却 并 没有 被 回 写 回 
来 ， 所 以 现在 这 个 成 员 派 不 上 什么 用 场 。 
其 余 的 两 个 成 员 function 和 executable 将 在 后 面 的 章节 中 进行 介 

们 


口 





6.4.1 加 载 /链接 DVM _Executable 到 DVM 


在 程序 执行 前 ， 首 先 必须 要 为 DVM_VirtualMachine 绑 定 
DVM_Executable ， 用 函数 DVM_add_executable() 来 完成 这 项 工作 。 
由 于 一 个 DVM_VirtualMachine 只 能 对 应 一 个 DVM_Executable ， 因 此 
这 个 函数 的 名 字 有 点 挂 壮 头 卖 狗 肉 的 意思 。 


在 DVM_add_executable() 中 会 进行 以 下 几 个 处 理 。 








1. 将 函数 添加 到 DVM VirtualMachine 中 


在 这 里 我 要 重申 一 下 ， 一 个 DVM_VirtualMachine 只 对 应 一 

个 DVM_Executable 。 但 是 ， 像 print() 这 样 的 原生 函数 储存 在 了 别 的 
地 方 ( 即 DYVM_Executable 以 外 的 地 方 ) ， 因 此 有 必要 将 函数 以 某 种 方 
式 进 行 链接 。 


DVM_VirtualMachine 结构 体 的 function 数组 正 是 为 此 而 存在 的 对 应 
es 
其 类 型 Function 的 定义 如 下 所 示 。 


/* 将 Function 进 行 分 类 的 标签 */ 

typedef enum { 
NATIVE_FUNCTION， 
DIKSAM_FUNCTION 

} FunctionKind; 








/* 保存 print() 之 类 的 原生 函数 */ 

typedef struct { 
DVM_NativeFunctionProc *proc; 
int arg_count ; 

} NativeFunction; 

















/* 引用 在 Diksam 中 定义 的 函数 */ 
typedef struct { 

DVM_ Executable *executable; 

int index;/* 上 层 executable 内 (译注 : 与 本 函数 对 应 的 ) DVM_F 
} DiksamFunction; 








/* Function 结 构 体 本 身 */ 
typedef struct { 
char *name; 
FunctionKind kind; 
union { 
NativeFunction native f; 
DiksamFunction diksam f; 
} yu; 


} Function; 








DVM_Executable 中 保存 的 函数 在 执行 时 使 用 对 应 表 进 行 引 用 。 
这 个 引用 表 中 同样 登记 着 像 print() 这 样 的 原生 函数 ， 因 此 利用 这 个 对 








应 表 的 索引 ， 不 论 是 Diksam 中 定义 的 函数 还 是 原生 函数 ， 全 部 可 以 引用 
到 。 


在 字 市 码 中 调用 水 数 的 时 候 ， 使 用 push_function 指令 将 函数 对 应 的 
索引 值 入 栈 ， 这 个 被 岁入 的 值 ， 就 是 在 编译 时 DVM_Executable 内 
DVM_Function 数组 的 下 标 。 


DVM_Function 数组 中 不 包含 当前 源 代码 中 使 用 的 原生 函数 ， 因 
此 Function 数组 和 索引 值 就 会 出 现 差异 。 下 一 步 就 是 要 修正 这 个 问 
题 。 


2. 替换 函数 的 索引 棒 检 


如 前 面 所 述 ， 在 编译 阶段 函数 的 索引 对 于 当前 DVM_Executable 来 说 是 
局 部 的 ， 在 执行 时 会 被 汇总 到 一 个 数组 中 ， 因 此 必须 要 将 索引 进行 转 
换 。 


这 个 操作 会 直接 蔡 换 字 贡 但 中 的 操作 数 。 
但 是 ， 如 果 直 接 调整 成 与 某 个 DVM VirtualMachine 匹配 的 字 节 码 的 


话 ， 当 一 个 DVM_Executable 对 应 多 个 DVM_VirtualMachine 时 就 会 出 
现 问题 。 这 个 问题 将 在 9.3.4 节 中 修正 。 














3. 修正 局 部 变量 的 索引 值 








在 进行 上 述 操 作 的 同时 ， 也 会 修正 局 部 变量 的 索引 值 。 


如 图 6-5 所 示 ， 引 用 局 部 变量 时 ， 索 引 与 参数 之 间 隅 着 返回 信息 。 但 
是 ， 编 译 恤 并 不 知道 返回 信息 的 大 小 (其 实 是 可 以 知道 的 ， 但 是 为 了 信 
奶 保 密 而 使 编译 器 不 能 获取 到 返回 信息 的 大 小 ) ， 因 此 在 编译 时 ， 参 数 
的 索引 会 接着 引用 后 面 的 索引 值 。 


DVM_add_executable() 中 会 使 用 push_stack_xxx 和 
pop_stack_xxx 指令 对 此 进行 修正 。 

















4. 将 全 局 变量 添加 到 DVM _ VirtualMachine 中 


只 是 用 DVM_Executable 结构 体 的 global_variable 数组 的 个 数 创 
建 DVM_VirtualMachine 结构 体 的 static_v.variable 数组 ， 并 初始 
化 数组 的 值 。 


6.4.2 ”执行 一 一 巨大 的 switch case 

接 下 来 就 要 开始 执行 了 。 

DVM 是 一 个 将 编译 器 生成 的 字 节 人 码 逐个 执行 的 虚拟 机 。 也 就 是 说 ， 只 
要 循环 地 执行 一 个 与 字 节 码 的 指令 种 类 一 样 多 的 巨大 switch case 就 
梧 愉 了 5 

关于 这 个 话题 ， 可 能 直接 看 代码 会 更 形象 〈 代 码 清单 6-2) 。 

代码 清单 6-2 ”execute() 





static DVM Value 
execute(DVM VirtualMachine *dvm, Function *func, 
DVM_Byte *code, int code size) 


{ 
int pc 
int base; 
DVM Value Pet ; 
DVM Value *stack; 
DVM_ Executable *@xe; 


stack = dvm->stack.stack; 
exe = dvm->executable; 


for (pc = dvm->pc; pc < code size; ) { 

switch (code[pc]) { 

case DVM_ PUSH INT 1BYTE: 
STI_WRITE(dvm, 08, codef[pc+1]); 
dvm->stack.stack pointer++; 
PC += 2; 
break ; 

case DVM_ PUSH INT 2BYTE: 
STI_WRITE(dvm, ©@, GET 2BYTE INT(&code[pc+1])); 
dvm->stack.stack pointer++; 
pC += 3; 
break; 

case DVM_ PUSH_INT: 
STI_WRITE(dvm, 0, 

exe->constant pool|[GET 2BYTE INT(&code[pc+1])].u.c i 


dvm->stack.stack_pointer++; 
pC += 3; 
break; 
case DVM PUSH DOUBLE ©: 
STD_WRITE(dvm, 06, 060.0); 
dvm->stack.stack pointer+t+; 
pc++; 
break; 
case DVM PUSH DOUBLE 1: 
STD_WRITE(dvm, 8, 1.06); 
dvm->stack.stack pointer+t+; 
pc++; 
break; 
case DVM PUSH _ DOUBLE: 
STD_WRITE(dvm, 0, 
exe->constant pool|[GET 2BYTE INT(&code[pc+1])].u.cd 
dvm->stack.stack pointert+t+; 
PC += 3; 
break ; 
case DVM_PUSH_STRING : 
STO_NRITE(dvm，6， 
dvm_literal to dvm string i(dvm, 
exe->constant _ pool 
[GET_2BYTE_INT(&code[pc+1 
.U.c_string)); 
dvm->stack.stack pointer+t+; 
pC += 3; 
break; 


(之 后 省 略 ) 





现在 这 个 函数 (execute.c 的 execute() 函数 ) 束 已 经 有 400 多 行 了 了， 并 
且 还 会 不 断 增 加 。 如 果 有 “一 个 函数 必须 少 于 XX 行 ?等 这 样机 械 的 编码 











规约 的 话 ， 那 么 在 实际 工程 中 程序 员 们 肯定 会 违反 这 个 规则 。 
但 我 党 得 把 一 个 函数 分 割 开 并 没有 让 它 变 得 更 易 读 。 即 使 是 规定 了 
个 函数 必须 少 于 XX 行 ” 这 样机 械 的 编码 规约 ， 也 不 能 说 编程 本 映 古 一 项 
机 械 的 工作 。 

更 重要 的 是 ， 由 于 这 个 函数 的 内 部 引用 了 栈 ， 因 此 用 到 了 以 下 这 些 宏 。 


e STI(dvm, sp), STD(dvm, sp), STO(dvm, sp) 
以 当前 栈 指针 加 上 sp 为 索引 值 ， 返 回 栈 上 对 应 元 素 值 。 主 要 用 于 























四 则 运算 等 ， 也 用 于 双 目 / 单 目 运算 符 操作 栈 项 附近 的 值 。 


STI 用 于 int ，STD 用 于 double ，STO 用 于 string (对 象 ) 。 
站 述 三 个 方 尖 辣 是 。 








STI_I(dvm, sp), STD I(dvm, sp), STO I(dvm, sp) 
直接 以 sp 为 索引 值 ， 取 得 栈 上 对 应 元 素 值 。 使 用 了 
push_stack_xxx 、pop_stack_xxx 系列 的 指令 。 


这 些 指令 不 是 用 来 引用 栈 顶 附近 的 值 的， 而 是 用 来 引用 以 base 
为 起 点 的 索引 值 对 应 的 栈 元 素 的 。 


STI_ WRITE(dvm, sp, r), STD WRITE(dvm, sp, r), 
STO_WRITE(dvm, sp, r) 

用 与 STI() 等 相同 的 方法 来 指定 栈 上 的 元 素 ， 并 在 对 应 元 系 的 位 置 
写 入 r 。 因 为 使 用 了 STI() 等 宏 命令 ， 所 以 可 以 用 STI(dvm，8) 
== Xxx 的 形式 进行 赋值 。 但 是 ， 由 于 必须 要 根据 类 型 是 否 为 指针 
来 设 定 栈 的 pointer_flags ， 因 此 特意 制作 了 用 来 写 入 的 宏 。 


STI_WRITE I(dvm, sp, r), STD WRITE I(dvm, sp, r), 


STO_WRITE I(dvm, sp, r) 
直接 以 sp 为 索引 值 的 STx_WRITE()。 


6.4.3 ”函数 调用 


作为 程序 的 起 始 上 把，execute( ) 函数 确实 是 一 个 巨大 的 函数 ， 逐 个 地 执 
行 每 个 指令 绝对 不 是 几 行 代 码 就 能 解决 的 。 


这 里 将 要 说 明 的 是 一 个 稍微 复杂 一 些 的 话题 一 一 函数 调用 。 
函数 调用 按照 以 下 的 顺序 执行 。 

1. 将 参数 以 从 前 回 后 的 顺序 入 栈 。 

2. 使 用 push_function 将 函数 的 索引 值 入 栈 。 


上 述 操作 执行 后 ， 栈 的 状态 如 图 6-7 所 示 。 
然后 执行 jnvoke 指令 。 

















3. 执行 invoke， 调 用 栈 顶 的 函数 。 


如 果 被 调用 的 函数 是 一 个 原生 函数 ， 那 么 上 述 操 作 就 会 实际 地 执行 


Diksam 原 生 函 数 的 调用 形式 如 下 《以 print() 为 例 ) 。 


static DVM Value 
nv_print proc(DVM VirtualMachine *dvm, 
int arg count, DVM Value *args) 


{ 
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图 6-7 函数 调用 (1) 

这 里 把 DVM_Value 的 数组 作为 参数 传递 给 了 nv_print_proc 函数 ， 但 

、 0 因此 这 里 也 可 以 只 传 第 一 个 参 
人 指针 。 


如 果 要 调用 Diksam 的 函数 ， 要 进行 以 下 操作 。 


. 将 返回 信息 入 栈 。 

. 设置 base 的 值 。 

. 初始 化 局 部 变量 。 

， 替换 执行 中 的 executable 和 函数 。 
5. 将 程序 计数 器 置 为 0 并 开始 执行 。 


使 用 callInfo 结构 体 来 表示 之 前 一 直 在 说 的 返回 信息 的 实体 。 


全局 计 一 





typedef struct { 
Function *caller; 
int caller_ address 


int base; 
} CallInfo; 





caller 指向 当前 函数 的 调用 者 (也 是 函数 ) ，caller_address 
指向 函数 内 字 节 码 上 的 地 址 。base 指向 调用 者 的 base 值 (引用 参 
数 或 者 局 部 变量 的 起 点 ) 。 


在 函数 被 调用 的 时 候 ， 因 为 栈 中 还 保存 着 很 多 运算 过 程 中 的 值 ， 所 以 如 
果 CallInfo 中 不 保存 base 的 话 ， 函 数 结束 后 就 无 法 返回 了 《因为 不 知 
道 返 回 到 哪里 ) 。 


对 于 CallInfo 结构 体 来 说 ， 首 先 要 被 覆盖 设置 调用 函数 的 索引 《由 
push_function 入 栈 的 ) 。 之 后 设置 新 base， 创 建 局 部 变量 的 内 存 区 域 。 
在 被 调用 的 函数 开始 执行 时 ， 栈 的 状态 如 图 6-8 所 示 。 
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图 6-8 ”函数 调用 (2) 
被 调用 的 函数 在 达到 这 个 状态 后 就 可 以 开始 执行 了 。 


有 反 过 来 ， 从 函数 中 return 的 时 候 是 怎样 操作 的 呢 ? 函数 在 最 后 结束 之 
前 要 先 执行 return ， 因 此 函数 在 结束 时 必须 在 局 部 变量 的 下 一 个 位 置 
中 保存 返回 值 《如 图 6-9) 。 
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图 6-9 ”函数 调用 (3) 


将 参数 、CallInfo 、 局 部 变量 全 部 移 除 后 ， 将 返回 值 移动 到 栈 项 。 这 
样 做 ， 即 使 函数 是 在 表达 式 的 计算 过 程 中 被 调用 的 ， 也 可 以 让 它 正 确 地 
使 用 函数 的 返回 值 〈( 如 图 6-10)〉。 
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图 6-10 ”函数 调用 〈4) 


第 7 章 ”为 Diksam 引 入 数组 





7.1 Diksam 中 数组 的 设计 

由 于 Diksam book_ver.0.1 不 能 使 用 数组 ， 因 此 让 人 感觉 不 太 实 用 ， 所 以 
在 book_ver.0.2 中 我 们 将 引入 数组 的 概念 。 啊 ， 这 个 开场 白 好 像 和 4.1 节 
的 一 样 呢 。 


7.1.1 声明 数组 类 型 的 变量 


Diksam 中 数组 的 设计 与 Java 大 致 相同 。 


首先 ， 在 Diksam 中 变量 必须 要 进行 声明 ， 当 然 数 组 类 型 的 变量 也 不 例 
外 ， 需 要 用 Java 的 风格 进行 声明 。 


int[] a;// 声明 int 类 型 的 数组 


创建 数组 时 的 语法 也 和 Java 一 样 。 


// 创建 了 一 个 可 以 访问 到 a[2][4] 的 数组 
a= new int[3][5]; 





与 crowbar 和 Java 一 样 ，Diksam 的 数组 也 是 引用 类 型 。 因 此 ， 下 面 的 代码 
会 输出 a[1]. .16 


int[] a = {1, 3}; 
int[] b = a;// i 个 数组 








// 因 此 ， 改 变 b[1] 的 话 a[1] 也 会 跟着 改变 





b[1] = 16; 
print("a[1].." + a[1] + "\n"); 





因为 数组 a 和 数组 b 指 癌 了 同一 个 数组 ， 所 以 输出 这 样 的 结果 也 是 理 所 


当然 的 (如 图 7-1)。 
a|®@- 
bl|@ 


图 7-1 两 个 变量 同时 引用 一 个 Diksam 的 数组 
另外 ，“ 看 上 去 是 ) 多 维 数组 实际 上 是 数组 的 数组 。 
总 之 ， 在 a = new int[3][5]; 这 段 代 码 中 ，a 最 后 得 到 的 是 “int 数 





组 J 的 数组 (5 个 元 系 ) ”。 关 于 数组 元 素 的 引用 形式 ， 如 图 
7-2 有 不。 


int 数组 ( 3 个 元 素 ) 





ee 的 数组 ( 5 个 元 素 ) 


图 7-2 Diksam 的 多 维 数组 
7.1.2 ”数组 常量 


ee 数组 类 型 变量 只 有 在 声明 的 同时 进行 初始 化 ， 才 可 以 用 如 下 
a 


int[] a = {1, 2，3}; 


其 他 情况 下 ， 数 组 常量 必须 使 用 以 下 方式 声明 。 


a = new int[]{1, 2,3}; 


虽然 知道 在 Java (或 Diksam) 这 样 的 静态 类 型 语言 中 必须 明确 地 指定 类 
型 ， 但 是 总 觉得 new int[] 这 部 分 太 见 长 了 ， 男 外 对 于 初学 者 来 说 ， 初 
始 化 和 其 他 情况 不 同 也 容易 造成 混乱 。 更 重要 的 是 我 (从 语言 实现 者 的 
角度 出 发 ) 不 文 持 一 种 常量 有 两 种 声明 方式 。 


因此 在 Diksam 中 ， 数 组 常量 的 类 型 由 “最 初 的 元 素 的 类 型 ?决定 〈 这 里 模 
仿 的 是 D 语 言 ) 。 

总 之 ， 下 面 这 段 代 码 中 第 2 个 和 第 3 个 元 素 会 被 转换 成 double ， 以 
double 型 数组 {1.6，2.6，3.61 的 形式 赋值 给 a 。 














double[] a = {1.6，2，31} 


第 2 和 第 3 个 元 素 会 被 转换 为 double ， 被 赋值 给 a 的 是 一 个 由 {1.68， 
2.6，3.6} 组 成 的 double 数 组 。 

在 Diksam 中 (与 Java 相 同 ) ， 还 没有 决定 元 素 值 的 数组 ， 写 作 a = new 
i a ， 这 段 代码 创建 了 一 个 访问 范围 是 从 a[86][8] 到 a[4][2] 
] 数 组。 


补充 知识 D 语 言 的 数组 
D 语 言 是 Digital Mars 公 司 作为 C 语 言 的 后 继 开 发 出 来 的 编程 语言 。 


在 D 语 言 中 ， 如 果 想 要 创建 一 个 访问 范围 从 a[8][8] 到 a[4][2] 的 数 
组 ， 就 要 写成 int[3][5]; 。 而 且 ， 并 不 是 堆 中 而 是 作为 静态 或 者 局 部 
变量 时 数组 的 声明 语法 。 如 果 要 使 用 new 进行 动态 分 配 时 就 要 写成 new 
int[3][5] 了 。 


与 C 和 Java 一 样 ，D 语 言 的 数组 下 标 也 是 从 0 开始 ， 下 标的 上 限 和 数组 的 
大 小 相差 1。 这 点 虽然 很 好 ， 但 是 可 以 访问 到 a[4][2] 的 数组 声明 方式 
却 是 int[3][5]; ， 肯 定 有 人 会 怀疑 是 不 是 把 顺序 搞 错 了 。 确 实 ， 在 C 
语言 中 可 以 访问 到 a[4][2] 的 数组 声明 方式 是 int[5][3]; ，Java 

在 new 数组 的 时 候 也 是 int[5][3];。 


但 是 ， 在 Java (或 者 是 Diksam) 中 ，new int[5][3]; 得 到 的 是 int 的 
数组 (3 个 元 素 〉 的 数组 (5 个 元 素 ) 。Java (或 者 是 Diksam) 的 语法 不 
可 以 从 左边 开始 读 ， 这 点 在 D 语 言 中 正好 相反 。 

虽然 是 这 样 ， 但 是 Java 语 言 比 D 语 言 使 用 范围 更 广泛 ， 这 部 分 的 语法 C# 
和 Java 也 是 相同 的 ， 更 重要 的 是 ， 已 经 习惯 了 这 样 (Java) 的 写法 突然 
改变 的 话 ， 会 变 得 混乱 (我 自己 也 会 ) ， 因 此 在 数组 声明 方式 上 ， 
Diksam 是 迎合 了 Java 的 做 法 。 


虽然 如 此 ，D 语 言 是 美国 人 开发 出 来 的 语言 ， 在 他 们 看 来 D 语 言 这样 的 
顺序 可 能 更 自然 一 点 。 


7.2 ”修改 编译 剖 





























7.2.1 数组 的 语法 规则 
这 次 增加 的 语法 规则 如 下 所 示 。 
1. 扩展 类 型 标识 符 (type_specifier ) 以 声明 数组 类 型 的 变量 
2. 使 用 new 创建 数组 的 语法 (array_creation ) 
3. 数组 常量 (array_literal ) 
4. 使 用 下 标 运 算 符 ( 如 a[16] ) 引用 数组 元 素 的 语法 


第 1 点 ， 原 来 的 类 型 标识 符 是 下 面 这 样 的 。 








type_specifier 
: BOOLEAN_T 
| INT_T 
| DOUBLE T 


| STRING T 
; 





现在 ， 像 boolean 或 者 int 这 样 的 基本 类 型 都 将 被 作 
为 basic_ type_specifier ， 如 下 所 示 。 
type_specifier 


: basic type specifier 
| type_specifier LB RB 
3 





LB 和 RB 是 Left Bracket 和 Right Bracket 的 简称 ， 代 表 [ 和 ] 。 


type_specifier 可 以 包含 [] 本 身 。 这 样 一 来 不 论 加 几 个 [] 都 可 以 
(例如 int[][][] ) 。 


第 2 点 ， 使 用 new 创建 数组 的 语法 看 上 去 好 像 挺 嘛 烦 的 。 
比如 在 Java 中 代码 new int[16] 会 得 到 int 数组 〈10 个 元 素 ) 。 
在 此 基础 上 如 果 加 上 下 标 [5] ， 束 变 成 了 new int[16][5] 。 这 行 代码 


会 取得 new int[16] 的 第 5 个 元 素 是 不 可 能 的 ， 这 当然 是 创建 二 维 数 
组 的 意思 。 


























* 因 为 数组 的 下 标 是 从 0 开始 的 ， 所 以 这 里 用 一 般 的 计数 方法 取得 的 应 该 是 第 6 个 元 素 。 


总 之 ， 下 标 运 算 符 [] 除了 必须 要 适用 于 普通 的 表达 式 之 外 ， 还 要 适用 
基于 new 的 数组 创建 (array_creation ) 语法 。 


在 Diksam book_ver.0.1 中 组 成 表达 式 的 最 小 元 素 
是 primary_expression 〈 运 算 符 优先 顺序 最 高 的 块 ) ， 因 此 “基于 
new 创 建 数组 ”被 当 作 “例外 情况 ”来 处 理 。 














primary_expression 
: primary_no_new_array /* 基于 new 创 建 数组 之 外 的 表达 式 */ 
| array_creation /* 使 用 new 创 建 数组 的 表达 式 */ 











了 








引用 数组 元 素 的 语法 规则 如 下 所 示 。 下 标 运 算 符 [] 不 被 局 限于 使 用 new 
来 创建 数组 。 
primary_no_new array 


/* 可 以 使 用 [] 的 只 有 primary_no_new_array */ 


: primary_no_new_array LB expression RB 








(之 后 省 略 》 











0 这 是 一 段 多 么 了 不 起 的 代码 啊 。 可 这 不 是 我 号 的 ， 我 只 不 过 是 照搬 
了 Java 的 语法 规则 而 已 上 。 


7.2.2 ”TypeSpecifier 结 构 体 

在 Diksam 的 编译 器 中 ， 使 用 Typespecifier 结构 体 保存 数据 类 型 。 
关于 TypeSpecifier 结构 体 请 参考 6.3.4 节 。 

要 点 在 于 ， 要 使 用 保存 基础 类 型 (CDVM_BasicType ) 的 
TypeSpecifier 结构 体 和 链表 连接 起 来 的 派生 类 型 (TypeDerive ) 来 
表示 所 有 数据 类 型 。 

这 部 分 的 代码 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 TypeSpecifier (Diksam book_ver.0.2 版 ) 


typedef enum { 
FUNCTION DERIVE, 
ARRAY_DERIVE 

} DeriveTag; 


typedef struct { 
ParameterList *parameter list; 
} FunctionDerive; 


typedef struct { 
int dummy; /* make compiler happy */ 
} ArrayDerive; 


typedef struct TypeDerive tag { 
DeriveTag tag; 
union { 
FunctionDerive function d; 
ArrayDerive array_d; 
} uu; 
struct TypeDerive tag *next; 
} TypeDerive; 


struct TypeSpecifier tag { 
DVM_BasicType basic type; 
TypeDerive *derive; 


}; 





之 前 的 派生 类 型 只 有 “函数 类 型 >， 这 次 增加 了 数组 的 派生 
《在 TypeDerive 的 tag 中 加 入 了 ARRAY_DERIVE ) 。 


在 fix_tree.c 中 ， 表 达 式 的 各 个 节点 中 也 要 附加 对 应 地 TypeSspecifier 结 
构 体 。 比 如 ， 使 用 int[][] a; 声明 变量 a ， 在 附加 TypeSpecifier 的 
时 候 ， 首 先 给 basic_type 赋值 为 DVM_INT_TYPE ， 在 此 基础 上 给 进行 

了 数组 派生 的 TypeDerive 累加 上 两 个 链表 。 


于 是 ， 使 用 下 标 运 算 符 进行 引用 (如 a[186] ) 的 时 候 ， 移 

除 TypeDerive 链表 的 第 一 个 元 素 后 和 镜 下 的 就 是 表达 式 的 类 型 了 。 同 
理 ， md 的 话 ， 把 两 个 都 移 除 后 ， 表 达 式 的 类 型 就 是 int 
了 如 图 7-3) 。 








儿 
7 、 7 
TypeSpecifier TypeDerive 


图 7-3 含有 数组 的 分 析 树 的 类 型 


在 图 7-3 中 ， 圆 形 中 间 带 有 [ ] 的 符号 表示 下 标 运算 符 IndexExpression 
。 它 是 Expression 结构 体 中 的 一 种 共用 体 ， 数 组 和 下 标的 表达 式 保存 
在 下 面 的 结构 体 中 。 

typedef struct { 


Expression *array; /* 数组 的 表达 式 */ 
Expression *index; /* 下 标的 表达 式 */ 








} IndexExpression; 





7.3 ”修改 DVM 
7.3.1 增加 指令 


由 于 这 次 引入 了 数组 ， 因 此 在 DVM 中 也 要 增加 相应 的 指令 ， 增 加 的 指 
令 如 表 7-1 所 示 。 请 参考 附录 C 中 的 范例 阅读 本 表 。 


表 7-1 随 着 引入 数组 增加 的 指令 


操作 








D> 
bg 
湾 


指令 数 类 
J 


今 
型 

ush_array_int 根据 栈 顶 的 数组 和 下 标 ， 取 得 数组 [array 
Ee (int 型 ) 并 将 其 入 栈 。 int]>[int] 
ush_array_double 根据 栈 顶 的 数组 和 下 标 ， 取 得 数组 [array 
ee (double 型 ) 并 将 其 入 栈 。 int]>[double] 
ush_array_object 根据 栈 顶 的 数组 和 下 标 ， 取 得 数组 [array 
ee 3 (object 型 ) 并 将 其 入 栈 。 int]>[object] 
op array int 将 栈 项 的 值 (int1 ) 赋值 给 与 数组 (array [int1 array 
I ) 下 标 int2 对 应 的 元 素 int2]*[] 
op arrav double 将 栈 顶 的 值 “double ) 赋值 给 与 数组 [double array 
Bh 汪 (array ) 下 标 int 对 应 的 元 素 int]=>[] 
a 将 栈 顶 的 值 (object ) 赋值 给 与 数组 abil ray 
0 Yd (array ) 下 标 int 对 应 的 元 素 int]>[] 



























































bvte 。 | 创建 以 操作 数 byte 指定 维 数 ， 以 short 指定 | ， ， 
new_array 半 0t | 类 型 的 数组 ， 在 栈 中 创建 指定 大 小 的 空间 | [21 sn269 
并 将 数组 入 栈 。 
使 用 已 经 入 栈 的 操作 数 作为 int 型 元 素 ( 操 | ，，，，，，， 
new_array_literal int short | 作 数 用 来 指定 元 素 个 数 ) 创建 数组 并 将 数 ol elit ] 
组 入 栈 。 
使 用 给 定数 量 的 已 经 入 栈 的 操作 数 作 en 
为 double 型 元 素 创 建 数组 并 将 其 入 栈 。 
使 用 给 定数 量 的 已 经 入 栈 的 操作 数 作 [objectl 
为 object 型 元 素 创建 数组 并 将 其 入 栈 。 ee 























在 指令 中 出 现 了 “object 型 ”的 概念 。 它 是 在 之 前 只 包含 了 字符 串 的 引用 
类 型 的 基础 上 又 增加 了 数组 ， 是 由 字符 串 和 数组 组 成 的 类 型 。 


随 着 上 述 改 变 ， 除 了 专门 处 理 字 符 串 的 操作 《如 字符 串 比 较 等 ) ， 之 前 
的 push_static_string 等 指令 都 要 重 命 名 为 push_static_object 
二 本 

表 7-1 的 指令 中 ， 我 想必 须要 特别 说 明 一 下 new_array 。 

在 表 7-1 中 提 到 了 “操作 数 short 代 表 的 类 型 ”， 这 个 操作 数 是 指 这 次 

在 DVM_Executable 中 新 增 的 DVM_TypeSpecifier 数组 的 下 标 〈 代 码 
清单 7-2) 。 


代码 清单 7-2 DVM_Executable (book_ver.0.2) 


struct DVM Executable tag { 
int constant pool count; 
DVM_ ConstantPool *constant pool; 
int global variable count; 
DVM_ Variable *global variable; 
int function count; 
DVM_Function *function; 
int type_specifier count; < 新 埠 

















DVM_TypeSpecifier *type_specifier; < 新 增 
int code size; 
*code; 
line number size; 
DVM_ LineNumber *]ine_number 
int need stack size; 








DVM_TypeSpecifier 结构 体 在 book_ver.0.1 时 就 已 经 存在 了 ， 它 和 
TypeSpecifier 结 构 体 保存 着 同样 的 信息 。 


例如 ， 使 用 new int[5][3] 创建 一 个 数组 ，new_array 的 操作 数 将 被 
指定 为 保存 着 int[][] 类 型 信息 的 DVM_TypeSpecifier 的 下 标 。 


这 样 一 来 ， 只 要 知道 对 应 的 TypeSpecifier 就 能 够 知道 数组 的 维 

数 ，int[][] 型 的 数组 也 可 以 像 new int[5][] 这 样 ， 在 代码 运行 过 程 
中 再 创建 男 外 一 维 。 实 际 创建 的 维 数 (这 里 是 1) 使 用 另外 一 个 byte 型 

操作 数 传 递 指令 。 另 外 ， 使 用 代码 a = new int[5][]; 创建 的 数组 和 
Java 一 样 ，a[8]~a[4] 被 初始 化 为 null。 


补充 知识 ”创建 Java 的 数组 常量 


如 表 7-1 所 示 ， 在 DVM 中 ，new_array_literal_int 等 创建 常量 的 指 
令 ， 会 先 将 组 成 数组 的 值 入 栈 ， 再 利用 已 经 在 栈 上 的 值 创建 数组 。 但 
是 ，JVM 就 没有 与 此 对 应 的 指令 。 那 么 ，Java 中 是 如 何 通过 构造 函数 创 
建 的 数组 或 者 使 用 new int {1， 2， 3} 这 样 的 代码 创建 数组 的 呢 ? 
让 我 们 使 用 javap 来 看 一 下 。 


最 初 的 代码 : 


class Test { 
public static void main(String[] args){ 


int[] a = {1， 2，3，4， 5}; 





[| 


javap 的 结果 (只 截取 了 指令 部 分 ) 


jconst 5 
newarray int 
dup 
iconst 0 
jconst 1 
iastore 
dup 
jconst 1 
jconst 2 
iastore 
dup 
jiconst 2 
jconst 3 
iastore 
dup 
iconst 3 
iconst 4 
iastore 
dup 
iconst 4 
jiconst 5 
iastore 
astore 1 
return 


\O oONOOUPBUWPO 





也 就 是 说 ， 相 当 于 下 面 这 段 代 码 。 
int[] a = new int[5]; 


a[e] 
a[1] = 


a[2] = 
a[3] = 
a[4] = 








在 我 看 来 ， 生 成 字 节 码 的 体积 太 大 了 。 在 Java 中 ， 与 一 个 方法 对 应 的 字 
节 码 是 有 大 小 限制 的 《Diksam 也 一 样 ) ， 所 以 上 自动 生成 代码 的 时 候 〈 也 
许 还 有 其 他 情况 ) 可 能 会 引起 问题 。 


补充 知识 “C 语 言 中 数组 的 初始 化 


Diksam 也 好 ，Java 也 好 ， 数 组 常量 以 及 利用 构造 函数 创建 的 数组 ， 它 们 
的 内 容 都 是 在 “运行 时 ”决定 的 。 所 以 ， 在 下 面 这 段 代 码 中 : 


int[] a = {b * 1606, func()}; 


a 以 看 出 ， 数 组 元 素 可 能 只 在 运行 时 才能 决定 其 值 
| a 

es he i 元 素 的 内 容 必 须 是 常 
量 表达 式 。 

因为 有 了 这 个 限制 ， 在 编译 时 可 以 预先 创建 数组 的 内 存 映像 ，static 
变量 开始 执行 、 自 动 变量 ! 进入 函数 时 ， 可 以 利用 事先 创建 的 内 存 映像 
进行 初始 化 。 

1 一 般 情况 下 可 以 看 作 是 局 部 变量 。 一 一 译 者 注 


7.3.2 ”对 象 


在 book_ver.0.1 中 可 以 称 为 对 象 的 只 有 字符 串 ， 现 在 在 DVM_O0bject 中 增 
加 了 数组 成 员 ， 以 对 应 这 次 新 增 的 数组 概念 。 




















struct DVM Object tag { 
ObjectType type; 
unsigned int marked:1; 
union { 
DVM_String string; 
DVM_Array array; < 新 增 

















} ui 
struct DVM Object tag *prev; 
struct DVM Object tag *next; 





DVM_Array 的 内 容 如 下 所 示 。 


typedef enum { 
INT_ARRAY = 1， 
DOUBLE_ARRAY， 
OBJECT_ARRAY， 
} ArrayType 


struct DVM Array tag { 
ArrayType type; 
int size; 


int alloc size; 

union { 
int *int_array; 
double *double array; 
DVM_Object **object; 

} uy; 





在 crowbar 中 ， 数 组 是 “CRB_Value 的 数组 *”。 这 次 也 一 样 ， 因 为 

有 DVM_Value 共用 体 ， 数 组 也 可 以 表现 为 数组 。 但 是 ， 由 于 Diksam 是 
静态 语言 ， 因 此 数组 的 类 型 是 静态 决定 的 。 绝 对 不 可 能 把 double 加 入 
到 int 的 数组 中 。 


2 这 个 数组 值 必 须 是 双向 链表 。 一 -一 译 者 注 








这 么 说 的 话 ，int 的 数组 使 用 “sizeof(int) x 元 素数 ?就 可 以 毫 无 浪费 地 
创建 内 存 空 间 ， 即 使 是 传递 给 C 的 内 置 例 程 处 理 起 来 也 很 舒适 。 因 此 ， 

枚 举 类 型 ArrayType 中 的 每 个 对 象 都 表示 不 同 数组 元 素 的 类 

型 。ArrayType 没有 必要 对 应 Diksam 中 的 所 有 类 型 。 例 如 字符 串 的 数 
组 ， 或 者 是 数组 的 数组 ， 这 些 都 是 OBJECT_ARRAY 。 数 组 的 类 型 在 编译 
时 决定 ， 因 此 运行 时 在 这 里 没有 必要 保存 严格 的 类 型 。 现 在 的 情况 是 ， 
数组 的 类 型 信息 只 有 GC 用 到 了 。 





补充 知识 ”ArrayStoreException 


前 面 写 到 ， 在 Diksam 中 既 有 字符 串 数组 也 有 数组 的 数组 ， 数 组 的 对 象 中 
只 保存 了 “OBJECT_ARRAY ”这 一 个 信息 。 与 此 相对 ， 在 Java 中 ， 数 组 对 
象 中 保存 着 完整 的 类 型 信息 。 这 样 的 区 别 是 基于 以 下 两 点 原因 。 

















。 Diksam 中 还 不 存在 类 和 继承 ， 但 是 在 Java 中 存在 。 
。 在 Java 中 ， 当 A 是 B 的 子 类 时 ，A[] 也 自动 地 成 为 了 B[] 的 子 类 。 


例如 有 一 个 表示 图 形 的 类 shape ， 有 两 个 继承 它 的 子 类 Line 和 Circle 

。 这 时 在 Java 中 ， 可 以 把 Line 的 数组 赋值 给 Shape[] 型 的 变量 。 这 种 

设计 乍 看 是 挺 方便 的 ， 实 际 上 问题 重重 。 请 思考 如 下 这 个 代码 卢 段 。 
Line[] lines = new Line[16]; 


Shape[] shapes = lines; 
shapes[3] = new Circle(); 


lines[3].startPoint = new Point(x, y); 





第 1 行当 然 是 合法 的 。 第 2 行 也 一 样 ，Line[] 是 Shapef[ ] 的 子 类 ， 因 此 
在 Java 中 也 是 合法 的 。 第 3 行 ， 因 为 Circle 也 是 Shape 的 子 类 ， 上 所 以 Java 在 
编译 时 并 不 会 报错 (更 确切 地 说 是 报 不 出 错 ) 。 


接 下 来 的 第 4 行 就 悲剧 了 。shapes 和 1lines 指向 同一 个 数组 ， 

此 lines[3] 也 就 是 shapes[3] ， 它 在 第 3 行 被 赋 了 一 个 Circle 对 象 的 
值 。 但 是 ， 在 第 4 行 的 时 候 又 要 引用 Line 的 起 点 (startPoint 

) ，Circle 中 并 没有 startPoint ， 因 此 这 行 代 码 不 能 被 执行 。 但 
是 ， 编 译 器 却 始终 认为 Line[3] 肯定 是 Line ， 因 此 编译 时 不 会 出 现 报 
错 。 


正 因 如 此 ， 在 Java 中 ， 执 行 到 第 3 行 代码 时 会 发 生 运 行 时 的 异 蜗 ， 


Array9toreException 。 


只 有 在 运行 时 掌握 “这 个 数组 在 变量 声明 上 是 shape[] ， 但 是 它 实 际 上 
却 是 Line[] a 才能 在 实现 时 抛 出 上 述 异 党 。 因此 ， 在 Java 中 ， 必须 将 
完整 的 类 型 信息 保存 在 数组 的 对 象 中 。 


我 认为 这 是 一 个 不 民 的 设计 。 既 然 是 豆 态 语言 ， 就 应 该 在 编译 时 完成 类 
型 检查 ， 在 运行 时 抛 出 异常 不 是 很 奇怪 的 吗 ? 总 之 ， 我 认为 Java 的 “A 
古 B 的 子 类 时 ，A[] 也 自动 地 成 为 了 B[] 的 子 类 ”这 个 规则 是 错误 的 。 


Diksam 将 在 下 一 章 引 入 类 的 概念 ， 但 是 没有 建立 上 述 规划， 因此 也 没有 
必要 在 数组 中 保存 严格 的 类 型 信息 。 

















7.3.3 ”增加 null 


由 于 数组 和 字符 串 都 是 引用 类 型 ， 因 此 增加 了 nul1 。 
随 之 改变 的 是 ， 以 前 字符 串 变 量 的 初始 值 是 空 字符 串 ， 现 在 变 成 了 nul1 








关于 null 的 规则 如 下 所 示 。 


1. 字符 串 类 型 、 数 组 类 型 的 变量 可 以 赋值 为 nul1l 。 

2. 字符 串 类 型 与 值 为 null 的 变量 用 + 连接 的 话 ，null 会 转换 为 字符 
串 "nu11" 。 

3. 字符 串 类 型 与 常量 nul1 用 + 连接 的 话 ，nu1l1 会 转换 为 字符 
串 "nu11" 。 

4. 字符 串 类 型 与 数组 类 型 可 以 和 nu11 进行 比较 。 


7.3.4 有 慌 ! 还 缺点 什么 吧 ”? 


这 次 引入 了 数组 的 概念 ， 如 条 是 了 解 当 今 编程 语言 的 人 肯定 在 期 符 厦 下 
面 这 些 功能 。 既 然 引 入 了 数组 的 概念 ， 怎 么 能 没有 它们 呢 ? 


。 没有 知道 数组 大 小 的 (array .size() 或 者 array.length 等 ) 方 
法 吗 ? 

。 没有 动态 增加 数组 元 素 〈 例 如 array.add(5) ) 的 方法 吗 ? 

。 不 能 把 数组 内 容 直 接 输 出 (例如 print("array.." + array) ) 
四? 


这 些 大 概 在 当今 的 编程 语言 中 都 能 实现 (有 些 语言 会 把 数组 理所当然 地 
输出 为 地 址 或 者 哈 希 值 )， 说 起 来 在 crowbar 中 也 实现 了 ， 但 是 这 次 却 
搁置 起 来 了 。 这 是 因为 考虑 到 这 些 功能 最 终 都 归结 为 “方法 "， 因 此 还 是 
和 类 一 起 制作 更 为 恰当 。 


所 以 ， 下 一 章 将 要 对 类 进行 处 理 。 














8.1 分割 源 文件 


本 章 的 标题 是 “将 类 引入 Diksam”， 在 现在 的 Diksam 中 源 代 人 码 不 能 分 散 地 
写 在 多 个 文件 中 。 即 使 在 编程 语言 中 引入 了 类 的 概念 ， 如 果 必 须 把 所 有 
代码 都 写 在 一 个 源 文 件 中 ， 那 么 这 个 语言 又 能 有 多 大 用 处 呢 ? 


因此 ， 首 先 要 实现 对 源 文件 的 分 割 。 


8.1.1 包 和 分 割 源 代码 


分 割 源 代码 的 方法 ， 最 简单 的 束 古 和 C 语 言 里 面 的 #include 一 样 ， 扔 
入 来 目 于 其 他 源 文 件 的 代码 。 这 个 方法 既 简单 又 直接 ， 非 常 实用 。 
但 是 ， 使 用 这 个 方法 馆 入 多 个 库 文 件 时 ， 函 数 名 、 变 量 名 等 很 可 能 发 生 
冲突 。 因 此 ， 在 分 割 源 代码 的 同时 ， 加 入 相当 于 Java 的 包 或 者 C++ 和 C# 
的 命名 空间 的 功能 。 


Diksam 的 包 的 设计 方式 如 下 所 示 。 





1. require 


一 些 源 文件 如 果 需 要 其 他 源 文件 提供 的 功能 时 ， 应 在 该 源 文件 的 开头 加 
入 如 下 代码 。 


require hoge; 


在 这 个 例子 中 ， 编 译 器 会 在 编译 时 搜索 文件 名 为 hoge.dkh 的 文件 。 和 
Java 的 import 一 样 ，require 也 只 能 写 在 代码 的 开头 。 另 

外 ，require 读 取 的 文件 必须 以 .dkh 为 后 级 ， 它 是 与 C 语 言 的 头 文件 相 
似 的 文件 。 


搜索 源 文件 的 目录 配置 在 环境 变量 DKM_REQUIRE_SEARCH_PATH 中 ， 多 
个 搜索 目录 之 间 在 UNIX 中 用 冒号 、 在 Windows 中 用 分 号 分 割 。 如 果 没 
有 配置 这 个 环境 变量 的 话 ， 将 在 当前 目录 (. ) 中 进行 搜索 。 这 里 的 设 
计 方 式 基本 上 和 Java 的 CLASSPATH 相同 。 


被 require 的 文件 有 可 能 还 要 require 其 他 文件 ， 这 时 不 会 对 同一 个 文 
件 进 行 重复 读 取 。 











2. 动态 加 载 


对 于 require 的 文件 来 说 ， 虽 然 也 可 以 把 必要 的 函数 的 源 代码 全 都 写 在 
里 面 ， 但 是 函数 只 要 像 下 面 这 样 进行 签名 声明 也 可 以 编译 通过 。 


int print(string str) 








| 


如 果 是 像 print() 这 样 的 原生 函数 ， 签 名 声明 后 就 可 以 直接 使 用 了 。 


如 采 不 是 原生 函数 的 话 ， 只 有 在 函数 被 调用 的 时 候 才 会 加 载 对 应 的 源 
代码 。 这 种 方式 称 为 动态 加 载 (dynamic load) 。 因 为 程序 中 总 有 些 功 
能 是 不 常用 的 ， 使 用 了 动态 加 载 后 相信 能 够 实现 高 速 化 启动 。 


如 末 在 hoge.dkh 中 进行 了 签名 声明 ， 那 么 在 函数 被 调用 的 时 候 会 对 
hoge.dkm 进 行 搜索 。 在 创建 库 文件 时 ，.dkm 实 现 了 .dkh 中 定义 的 设计 。 


动态 加 载 时 搜索 的 目录 并 不 配置 在 环境 变量 
DKM_REQUIRE_SEARCH_PATH 中 ， 而 是 从 DKM_LOAD_SEARCH_PATH 中 获 
取 。 在 这 里 ， 特 意 使 用 两 个 不 同 的 物理 路 径 来 区 分 库 文件 的 设计 和 实 
现 。 另 外 ， 也 可 以 使 用 “在 测试 过 程 中 将 实现 文件 作为 存根 ”的 方法 。 


实际 上 ，.dkh 文 件 作为 设计 公开 的 大 小 与 其 实现 〈.dkm 文 件 ) 后 的 大 小 
相差 悬殊 ，.dkh 和 .dkm 的 对 应 关系 应 该 是 12n 的 样子 ， 但 是 这 样 一 来 ， 在 
动态 加 载 时 残 需 要 故 外 指定 搜索 源 代码 的 方法 了 ， 因 此 这 里 先 让 它们 保 
0 3 0 0 
要 笨 件 。 


3. 包 

















在 Diksam 中 ， 一 个 源 文件 就 对 应 着 一 个 包 〔 在 .dkh 和 .dkm 分 开 编 写 的 情 
况 下 ， 它 们 两 个 的 代码 要 在 一 个 包 中 ) 。 


像 Java 那 样 在 每 个 源 文 件 的 开头 都 要 逐个 对 包 进 行 声 明 是 非常 麻烦 的 ， 
通常 情况 下 ，Java 的 目录 层级 和 包 的 层级 一 致 ， 也 就 是 把 同样 的 信息 体 
现在 了 两 个 地 方 。 这 样 一 来 ， 在 修改 时 就 会 出 现 问题 〈 尤 其 是 Java 的 包 
名 ， 使 用 起 来 像 是 互联 网 的 域名 ) 。 既 然 如 此 ， 单 纯 地 使 用 源 文 件 名 和 
包 名 的 组 合 可 能 更 简单 。 


Diksam 的 包 名 使 用 点 〈.) 进行 分 割 ， 根 据 包 名 就 可 以 简单 地 分 清 层 
级 。 


require hoge.piyo.foo.bar; 








上 面 这 段 代 码 ， 会 以 DKM_LOAD_SEARCH_PATH 中 设置 的 目录 为 起 点 ， 

以 包 名 的 最 后 一 个 名 字 之 外 的 部 分 ( 即 上 述 例子 中 的 “hoge/piyo/foo”) 
， 目录 进行 搜索 。 总 之 和 Java 一 样 ，Diksam 的 包 层 级 也 要 和 目录 层级 一 
致 。 











另外 ， 在 C++ 或 者 C# 中 ， 一 个 源 文 件 可 以 对 应 多 个 namespace ， 但 是 一 
般 情况 下 都 不 会 这 么 做 。 我 觉得 在 这 种 事情 上 节省 没有 任何 意义 。 相 
反 ， 一 个 包 可 能 锅 望 由 多 个 源 文件 构成 。 我 想 就 像 前 面 说 到 的 ， 这 是 能 
够 使 用 Diksam 编 写 大 程序 的 一 个 先决 条 件 ， 也 正 因 如 此 ， 我 们 才 需 要 用 
最 简单 的 办 法 来 解决 眼前 实现 和 使 用 上 的 问题 。 


另外 ， 像 print() 这 样 标准 的 程序 库 被 收录 在 了 diksam.lang 中 。 在 
这 次 要 制作 的 Diksam 的 版 本 (Diksam book _ver.0.3) 中 ， 使 用 者 必须 要 
手动 进行 require 。 


4. rename 


在 进行 require 时， 如果 引 入 了 多 个 包 中 的 同名 函数 时 会 发 生命 名 冲 


在 Java 中 ， 可 以 通过 指定 全 限定 类 名 (FQCN, Fully Q ualified C lass 
N ame) 避免 这 个 冲突 (如 java.util.List 和 java.awt.List ) 。 但 
是 ， 这 样 编写 代码 时 会 很 及 烦 ， 而 且 编 写 出 来 的 代码 也 会 显得 杂乱 无 
章 。 

因此 ， 在 Diksam 中 没有 指定 FQCN 的 方法 。 解 决 冲突 的 方法 是 利 

用 rename 进行 如 下 操作 。 


rename com.kmaebashi.util.print myprint; 


上 面 这 段 代码 将 com.kmaebashi.util 包 的 print 函数 改名 为 myprint 





rename 必须 写 在 源 代码 的 开头 和 require 之 后 。 还 有 ，rename 的 有 效 
范围 仅 在 当前 源 文件 中 ， 即 使 在 被 require 的 文件 中 使 用 了 rename ， 
也 不 会 影响 到 进行 require 的 文件 。 这 是 因为 ， 被 改名 后 的 名 字 只 在 当 











前 源 文件 内 可 见 ， 这 样 做 的 目的 是 为 了 可 以 让 每 个 源 文件 都 能 识别 出 函 
数 的 真正 身份 。 


5. 开始 执行 


在 现在 的 Diksam 中 ， 如 果 执 行 下 面 这 段 代 码 ， 程 序 将 从 hoge.dkm 的 顶层 
结构 开始 执行 。 


% diksam hoge.dkm 


即使 引入 了 require ， 这 个 设计 仍然 没有 改变 。 总 之 ， 程 序 总 是 会 从 指 
定 源 代码 的 顶层 结构 开始 执行 。 一 旦 程序 开始 执行 ， 就 可 以 调用 被 
require 的 源 代码 中 的 函数 了 。 即 使 被 require 的 文件 有 顶层 结构 ， 也 
是 不 会 执行 的 。 


可 以 把 Diksam 的 顶层 结构 看 作 是 Java 中 的 main() 方法 。main() 方法 在 
程序 库 中 大 多 是 充当 测试 驱动 的 角色 吧 : 。 


1 这 也 就 说 明了 为 什么 被 require 的 程序 不 执行 其 顶层 结构 的 原因 。 
一 译 者 注 














6. 关于 全 局 变量 








在 Diksam 中 ， 全 局 变量 是 在 函数 外 《顶层 结构 中 ) 声明 的 变量 ， 但 是 其 
他 源 文件 是 引用 不 到 这 个 全 局 变量 的 。 也 束 是 说 ， 如 果 只 有 在 多 个 源 文 
件 中 能 够 被 任意 引用 的 变量 才 可 以 称 为 全 局 变量 的 话 ， 那 么 Diksam 中 就 
不 存在 全 局 变量 。 


但 是 ， 多 个 源 文件 之 间 可 以 进行 函数 调用 ， 因 此 使 用 get_xxx() 
、Set _xxx() 也 是 可 以 访问 全 局 变量 的 。 一 般 来 说 ， 应 该 尽 可 能 不 使 用 
全 局 变量 ， 因 此 我 认为 这 种 方式 再 适合 不 过 了 。 

补充 知识 “”#include、 文 件 名 、 行 号 


虽然 和 本 市 的 主题 无 天 ， 但 这 里 还 是 要 提 一 下 ， 在 8.1.1 市 的 开头 写 到 : 











分 割 源 代码 的 方法 ， 最 简单 的 束 是 和 C 语 言 里 面 的 黄 nclude 一 样 ， 舱 入 来 
自 于 其 他 源 文件 的 代码 。 这 个 方法 既 简 单 又 直接 ， 非 常 实 用 。 

这 个 方法 非常 实用 ， 那 么 这 个 方法 就 是 个 好 方法 吗 ? 你 可 能 会 认为 ， 像 
C 语 言 的 预 处 理 那 样 ， 如 果 事 先进 行 了 处 理 ， 编 译 器 就 无 需 在 执行 时 再 
进行 校正 了 。 实 际 却 不 是 这 样 的 。 值 得 注意 的 一 点 就 是 ， 必 须要 通过 菏 
种 方法 知道 被 require 的 文件 的 文件 名 和 行 号 。 

使 用 #include 将 其 他 文件 租 入 进来 的 话 ， 行 写 目 然 会 发 生变 化 。 在 出 
现 报错 信息 的 时 候 ， 将 变化 后 的 行 号 输出 给 使 用 者 的 行为 是 很 不 友好 的 
(JSP， 即 Java Server Pages， 它 就 是 这 样 ， 会 将 自动 生成 的 Java 代 码 的 

行 号 直接 输出 ) 。 
例如 ，C 语 言 的 预 处 理会 通过 下 面 的 形式 ， 将 行 号 和 文件 名 传递 给 预 处 
理 后 的 文件 ”。 


*gcc 好 像 采 用 了 男 外 的 方式 输出 。 


#line 2 "hello.c" 


8.1.2 DVM ExecutableList 











一 个 Diksam 编 译 器 和 一 个 源 文 件 会 生成 出 一 个 DVM_Executable 。 在 之 
后 可 能 会 对 一 个 源 文 件 进行 分 割 ， 因 此 编译 后 也 可 能 生成 多 
个 DVM_Executable。 


为 了 管理 这 些 DVM_Executable ， 我 们 引入 了 DVM_ExecutableList 结 
构 体 (DVM_code.h) 。 


typedef struct DVM ExecutableItem tag { 
DVM Executable *executable; 
struct DVM ExecutableIltem tag *next; 
} DVM_ ExecutableItem; 


struct DVM ExecutablelList tag { 
DVM_ Executable *top_ level; 
DVM_ ExecutableItem *]ist; 


}; 





这 是 一 个 通过 DVM_ExecutableItem 保存 DVM_Executable 的 链表 的 
类 。 成 员 只 top_level 在 通过 1ist 保存 了 DVM_Executable 的 同时 ， 也 
保存 了 顶层 吉 构 (编译 器 启动 时 设 定 的 ) 。 


8.1.3 ExecutableEntry 


如 前 面 所 述 ，Diksam 中 没有 跨 文 件 的 全 局 变量 。 函 数 外 声明 的 变量 被 保 
存在 独立 的 命名 空间 中 ， 没 有 进行 链接 。 


在 以 前 的 数据 结构 中 ， 全 局 变量 0 x 间 保存 
在 DVM_VirtualMachine 中 ， 如 下 所 示 





typedef struct { 
int variable count; 
DVM_Value *yariable; 

} Static; 


struct DVM VirtualMachine tag { 


(中 间 省 略 》 
Static static v; 


(中 间 省 略 》 





但 是 ， 正 因为 没有 进行 链接 ， 所 以 对 于 DVM 来 说 (全 局 变量 ) 没有 必 
要 保存 为 一 个 数组 。 一 个 DVM_Executable 中 保存 一 个 数组 就 可 以 了 。 


在 和 编译 器 共用 的 DVM_Executable 中 ， 不 能 只 保存 运行 时 使 用 的 数 
据 ， 因 此 引入 了 ExecutableEntry 结构 体 ， 如 下 所 示 (dvm _pri.h) 。 
struct ExecutableEntry tag { 


DVM_ Executable *executable; 


Static static_v; < 六 数 外 声明 的 变量 所 使 用 的 内 存 空间 














struct ExecutableEntry tag *next; 


}; 





运行 时 ， 只 为 每 个 DVM_Executable 分 配 一 个 ExecutableEntry 数据 
结构 。 如 上 所 述 ， 其 中 保存 着 之 前 在 DVM_VirtualMachine 中 保存 的 全 
局 变量 (函数 外 声明 的 变量 ) 的 内 存 空 间 。 








8.1.4 ”分 开 编 译 源 代码 


接 下 来 要 解决 的 问题 是 ， 在 一 个 源 文件 使 用 require 请 求 了 其 他 源 文 件 
的 情况 下 ， 如 何 进行 编译 比较 好 ? 


比较 直接 的 想法 ， 我 想 是 在 解析 器 发 现 require 的 时 候 递 归 调 用 编译 
器 。 但 是 ， 因 为 在 yacclex 的 内 部 使 用 了 很 多 全 局 变量 ， 所 以 不 能 使 用 
递归 。 也 就 是 说 ， 在 解析 一 个 文件 的 中 途 不 能 再 去 解析 其 他 文件 ”。 


* 使 用 bison 等 语法 解析 器 时 可 以 使 用 递归 。 


Diksam 的 编译 顺序 是 ， 在 一 个 源 文件 完成 编译 后 ， 再 按 顺 序 编译 被 
require 的 源 文件 。 


DKC_Compiler 结构 体 作为 Diksam 编 译 的 核心 ， 其 内 部 保存 着 顶层 结构 
的 语句 列表 和 函数 (FunctionDefinition ) 的 列表 等 。 在 编译 的 最 后 
阶段 ， 会 根据 这 个 结构 体 生 成 DVM_Executable 。 从 结构 上 来 

说 ，DKC_Compiler 和 DVM_Executable 是 1:1 的 关系 ， 因 此 在 源 文件 中 
编译 被 require 的 源 文 件 时 ， 会 为 其 创建 一 个 新 的 DKC_Compiler 结构 
体 s 


编译 Diksam 的 代码 时 ， 应 用 程序 会 调用 DKC_compile() 函数 。 这 个 函 
数 会 调用 do_compile() 方法 ， 如 下 所 示 。 




















yyin = fp; /* 将 源 代码 fp 作为 起 点 ) 赋值 到 yyin 中 */ 
/* 生成 空 的 DVM_ExecutableList */ 

list = MEM malloc(sizeof(DVM Executablelist)); 
list->list=NULL; 



































/* 调用 do_compile()。 第 三 个 参数 为 源 文件 的 路 径 ， 但 在 这 个 层级 不 适用 。 
exe = do compile(compile, list, NULL, DVM_ FALSE); 

















do_compile() 的 内 容 如 代码 清单 8-1 所 示 (节选 )。 


代码 清单 8-1 do_compile() 





1: static DVM Executable * 
2 do_compile(DKC Compiler *compiler, DVM ExecutableList *1ist， 
3 char *path, DVM Boolean is required) 


56:} 

















《省 略 局 部 变量 的 声明 部 分 ) 

/* 在 C 的 栈 中 回避 当前 编译 器 */ 

compiler backup = dkc get current compiler(); 
dkc_set current compiler(compiler); 


























/* 执行 解析 */ 

if (yyparse()) { 
fprintf(stderr, "Error!Error!Error!\n"); 
exit(1); 

} 


/* 遍历 所 有 被 require 的 源 文件 */ 
for (req_ pos = compiler->require list; req_pos; 
req_pos = req pos->next) { 
/* 检查 正在 编译 的 源 文件 是 否 有 相应 的 编译 器 */ 
req_ comp = search compiler(st compiler list, req pos->packag 
if (req comp) { 
compiler->required list 
= add compiler to list(compiler->required list, req_ 
continue; 









































} 
/* 如 果 没 有 ， 创 建 一 个 新 的 编译 器 并 进行 编译 */ 


req_comp = DKC create compiler(); 
































(中 间 省 略 。 这 里 将 搜索 到 的 源 文件 路 径 设置 到 found_path 中 。) 
req_ exe = do compile(req comp, list, found path, DVM_TRUE); 





} 


dkc_fix tree(compiler); 
exe = dkc_generate(compiler); 


if (path) { 

exe->path = MEM strdup(path); 
} else { 

exe->path = NULL; 
} 


exe->is required = is required; 
if (!add exe to list(exe, list)) { 
dvm dispose executable(exe); 


} 
/* 从 备份 中 恢复 当前 编译 器 */ 


dkc_set current compiler(compiler backup); 

















return eXxe 


| | 


在 函数 中 ，yyin 的 值 被 设置 为 源 文件 的 文件 指针 ， 并 在 第 11~14 行 解析 
这 个 文件 。 之 后 ， 按 照 顺 序 循 环 地 编译 从 第 17 行 开始 的 代码 。 


前 面 已 经 提 到 过 ， 当 前 版 本 的 Diksam 会 为 每 个 源 文件 生成 一 个 编译 器 
(DKC_Compiler ) 。 然 后 ， 执 行 过 一 次 编译 的 编译 器 被 保存 在 名 

为 st_compiler_ list 的 static 的 链表 中 。 在 第 20 行 被 调用 的 函 

数 search_compiler() 是 为 了 在 第 1 个 参数 st_compiler_list 中 搜索 
是 否 有 编译 过 当前 包 的 编译 器 。DKC_Compiler 保存 着 包 名 ， 如 果 包 已 
经 被 编译 过 ， 将 对 应 的 编译 器 添加 到 正在 编译 的 编译 堪 的 
require_list 中 (第 22~23 行 )。 这 个 结构 很 像 树 结构 ， 但 是 这 个 结 
构 是 为 了 共享 同一 个 被 多 次 require 的 源 文件 ， 因 此 实际 上 它 并 不 是 树 
结构 ， 而 是 DAG (有 辣 无 循环 图 ，D irected A cyclic G raph) 结构 。 


如 果 有 没有 编译 过 源 文件 的 话 ， 从 第 27 行 开始 的 代码 会 创建 一 个 新 的 编 
译名 并 进行 编译 。 


并 且 ， 第 一 次 启动 时 ，st_compiler _ list 的 生命 周期 是 从 第 一 次 编译 
结束 到 开始 运行 之 前 。 因 此 ， 在 动态 加 载 的 时 候 同 样 的 源 代 码 会 被 再 次 
编译 。 详 细 请 参考 8.1.5 节 的 补充 知识 。 











第 29 行 中 间 省 略 了 通过 DKM_REQUIRE_SEARCH_PATH 搜 索 被 require 
的 源 文件 并 返回 文件 指针 等 一 连 串 的 处 理 。 之 后 将 返回 的 文件 指针 作为 
参数 ， 递 归 调用 do_compile() 函数 《第 30 行 ) 。 


所 有 的 子 文件 都 编译 过 后 ， 将 使 用 dkc_generate() 创建 
DVM_Executable ， 然 后 将 其 注册 到 DVM_ExecutableList 中 (第 42 


终 状态 的 DKC_Compiler 的 结构 如 图 8-1 所 示 。 


池 


根据 起 点 源 文件 的 require 创建 
编译 器 ,并 以 DAG ( 有 向 无 循环 图 ) 
Ww 共享 被 多 个 源 文件 


首先 ， 创 建 与 作为 起 点 DKC Compiler Ng require 的 源 文件 
的 源 文件 对 应 的 编译 器 
DVM Executable = 










x 







创建 
DKC Compiler : > 
- DKC Compiler “ (DVM Executable 
创建 ~ 

> A 

DVM Executable , s 

< DVM Executable : 
7 RS 经 过 编译 , 创建 的 所 


OE Ee OE 有 DVM _ Executable 
都 被 存储 到 一 个 DVM 


创建 DVM_Executable 一 
ExecutableList 中 


图 8-1 编译 器 编译 后 的 结构 

8.1.5 “加载 和 再 链接 

由 于 编译 是 以 源 文件 为 单位 进行 的 ， 因 此 完成 编译 之 后 ， 还 需要 进行 链 
接 。 和 链接 是 指 把 不 同 源 文件 中 出 现 的 同名 函数 进行 对 应 的 操作 。 本 市 
是 继续 6.4.1 节 的 内 容 作 介绍 。 

在 C 等 语言 中 ， 全 局 变量 也 必须 进行 链接 ， 但 是 在 Diksam 中 并 没有 可 以 
跨 源 文件 的 全 局 变量 ， 因 此 有 必要 和 其 他 源 文件 进行 链接 的 就 只 有 函数 
了 《虽然 后 面 会 出 现 类 的 概念 ) 。 

现在 , “函数 ”的 数据 保存 在 以 下 三 个 地 方 。 

1. DKC_Compiler 中 的 FunctionDefinition 列表 


这 个 对 应 表 中 保存 了 在 当前 源 文件 中 定义 的 原型 声明 函数 。 如 果 只 是 签 
名 声明 的 话 ， 指 向 实现 程序 块 的 成 员 block 应 为 NULL 。 


这 其 中 并 不 保存 被 require 的 .dkh 文 件 中 声明 的 函数 。 这 些 函 数 将 保存 
在 自己 所 在 .dkh 文 件 对 应 的 编译 器 中 ， 因 此 ， 在 搜索 函数 的 工具 函 
数 dkc_search_function() 中 ， 为 了 搜索 参数 指定 的 函数 ， 需 要 递归 
地 遍历 所 有 子 编译 器 (util.c) 。 

2. DVM_Executable 中 的 DVM_Function 数组 


DVM_Executable 的 DVM_Function 数组 中 ， 保 存 着 当前 源 文件 中 出 现 




















的 所 有 函数 。 


假设 在 源 文件 adkh 中 require 了 b.dkh， 并 且 调 用 了 b.dkh 中 声明 的 函 
数 p_ func() 。 此 时 ，b_ func() 并 没有 保存 在 a.dkh 的 
FunctionDefinition 中 ， 而 是 保存 在 DVM_Executable 中 。 


就 像 6.4.1 市 中 介绍 过 的 那样 ， 在 完成 编译 时 ， 指 令 push_function 指 
定 的 函数 的 索引 值 就 是 这 个 数组 的 下 标 。 因 此 ， 一 般 情 况 下 所 有 需要 被 
调用 的 函数 都 会 保存 在 这 个 对 应 表 中 。 


至 于 索引 值 ， 加 载 时 会 在 字 节 码 中 直接 替换 为 DVM_VirtualMachine 中 
Function 数组 的 下 标 ( 请 参考 6.4.1 广 )。 





3. DVM_VirtualMachine 中 的 Function 数 组 


DVM_VirtualMachine 中 的 Function 数组 保存 着 链接 后 的 函数 ， 每 个 
DVM 中 只 有 一 个 该 数组 。 


因为 Diksam 是 动态 加 载 的 ， 所 以 这 个 对 应 表 中 保存 的 函数 还 是 没有 实现 
的 状态 。 此 时 ， 成 员 is_implemented 都 是 false 。 


并 且 ， 这 个 数组 在 以 前 的 版 本 中 以 可 变 长 数组 的 形式 保存 在 了 
DVM_VirtualMachine 结构 体 中 ， 但 是 ， 现 在 变 成 了 “指针 的 可 变 长 数 
组 ”。 后 面 将 会 说 到 ， 基 于 动态 加 载 ， 这 个 数组 会 使 用 realloc() 进行 
扩展 。 之 前 的 结构 如 果 使 用 了 realloc() 会 使 Function 结构 体 的 地 址 
发 生变 化 。 因 此 ， 我 们 需要 一 个 即使 扩展 了 数组 的 元 素 地 址 也 不 会 改变 
的 结构 〈 如 图 8-2) 。 








以 前 的 保存 方法 修改 后 的 保存 方法 


DKC VirtualMachine 










变 为 指针 数组 的 话 ， 即 
使 使 用 realloc()， 
各 Function 的 地 t 


也 不 会 改变 


想 要 使 用 指针 指 
向 数组 内 特定 的 


因此 ， 可 以 更 便捷 


地 指定 某 个 特定 的 


Function 


图 8-2 ”修改 为 即使 使 用 了 realloc() 元 素 ， 地 址 也 不 会 改变 的 结构 


具体 的 实例 请 参考 以 下 三 段 源 代 码 (hoge.dkm，Ppiyo.dkh， 
piyo.dkm) 。 


hoge.dkm: 


require piyo; 


int hoge func() { 
piyo_func(); 


} 


hoge_func(); 





piyo.dkh: 


int piyo_ func(); 


piyo.dkm: 
require diksam.1ang; 


int piyo func() { 


print("piyo piyo\n"); 


} 





各 个 源 文件 在 对 应 表 中 的 注册 状态 如 图 8-3 所 示 。 











图 8-3 ”函数 在 对 应 表 中 注册 的 状态 


由 于 在 hoge.dkh 中 仅 定 义 或 者 签名 声明 函数 hoge_func() ， 

此 FunctionDefinition 也 只 4 注册 了 一 个 函数 。 但 

是 ，DVM_Executable 的 DVM_Function 中 只 注册 了 被 调用 的 
piyo_func() 函数 。push_function 指令 创建 不 了 的 函数 不 会 注册 到 
这 里。 


hoge.dkm 中 被 require 的 piyo.dkh 也 会 被 同时 编译 。 在 这 里 被 声明 
的 piyo_func() 会 同时 注册 到 piyo.dkh 的 FunctionDefinition 和 
DVM_Executable 两 个 地 方 。 


在 执行 开始 时 只 编译 了 这 两 个 文件 。 在 这 个 状态 中 ， 

据 DVM_VirtualMachine 的 Function 创建 对 应 表 ， a 以 原生 水 
数 形式 出 现 的 print() 、 hoge_func() 和 piyo func() 注册 进来 。 但 
是 ， 虽 然 piyo.dkm 描 述 了 实现 但 还 没有 被 加 载 ， 因 此 还 没有 实现 
piyo_func() 。 


一 旦 piyo_func() 被 调用 ， 就 会 进行 动态 加 载 。 动 态 加 载 功能 首先 新 
创建 一 个 piyo.dkm 的 编译 器 ， 然 后 再 创建 一 个 被 require 的 lang.dkh 的 


编译 器 ， 最 后 将 创建 出 来 的 DVM_Executable 链接 
到 DVM_VirtualMachine 中 ， 并 开始 执行 piyo_func() 。 


补充 知识 “动态 加 载 时 的 编译 器 








只 需 一 次 编译 ， 就 可 以 让 同一 个 文件 在 任何 地 方 都 能 被 require ， 与 此 
相对 ， 只 创建 一 个 DKC_Compiler 就 可 以 了 。 在 代码 清单 8-1 中 说 明了 其 
实现 方法 ， 即 使 用 static 的 变量 st_compiler 1ist 保存 所 有 编译 


但 是 ， 也 会 发 生 这 样 的 情况 ， 在 a.dkm 中 require 了 b.dkh，b.dkh 中 动态 
加 载 的 b.dkm 又 调用 了 a.dkm 中 的 函数 。 在 现在 的 实现 中 ， 只 会 为 a.dkm 
创建 一 个 DVM_Executable ， 但 是 却 会 多 次 创建 DKC_Compiler 。 
a.dkm 的 DKC_Compiler 在 第 一 次 编译 后 将 被 销毁 ， 但 编译 b.dkm 时 又 必 
须 使 用 a.dkm 的 编译 器 。 在 b.dkm 的 FunctionDefinition 中 只 注册 了 
a.dkm 中 被 调用 的 函数 ， 但 请 记 住 它 是 会 搜索 子 编译 器 的 。 


同一 个 源 文件 被 编译 多 次 确实 很 浪费 ， 但 是 现在 的 Diksam 还 不 能 把 字 市 
码 保 存在 文件 中 ， 因 此 在 执行 时 必须 要 有 源 代码 。 考 虑 到 这 样 的 情况 ， 
里 然 很 浪费 但 也 没有 什么 坏处 ， 在 实用 性 上 也 不 会 有 问题 。 


等 到 日 后 字 节 码 可 以 保存 到 文件 中 的 时 候 ， 只 需 使 用 DVM_Executable 
中 包含 的 DVM_Function 等 信息 就 可 以 完成 源 代 码 的 编译 了 。 


8.2 ”设计 Diksam 中 的 类 

在 成 功 将 源 文 件 分 割 后 ， 接 下 来 就 要 考虑 类 的 设计 了 。 

8.2.1 超 简单 的 面 癌 对 象 入 门 

设计 类 一 定 会 考虑 到 数组 〈array) 。 但 是 ， 考 虑 到 本 书 的 目标 读者 是 掌 
握 C 语 言 ， 并 有 具有 一 定 代 码 阅 读 能 力 的 程序 员 ， 因 此 ， 我 觉得 这 里 突然 
开始 类 和 面 同 对 象 的 话题 好 像 不 太 合 适 。 男 外 ， 面 同 对 象 的 相关 用 语 在 


不 同 语言 中 也 不 尽 相 同 ， 因 此 ， 本 贡 将 要 讲解 的 是 包含 用 语 含义 在 内 
的 一 些 简单 的 面向 对 象 概念 。 


* 例 如 Java 中 的 “ 超 类 ”在 C++ 中 被 称 为 “ 基 类 ”。 
Diksam 的 面向 对 象 与 Java、C++ 和 C# 相 同 ， 都 是 基于 类 的 面向 对 象 。 
类 (class) 近似 于 C 中 的 结构 体 类 型 ， 但 是 与 其 关联 的 动作 (函数 ) 可 


以 保存 在 类 中 ， 被 称 为 方法 (method) ， 数 据 成 员 被 称 为 字段 
(field) 。 





























class Point { 
double x; 
double y; 
// 定义 Point 的 方法 print() 
void print() { 
println("(x, y)..(" + this.x + ", " + this.y + ")"); 
} 
} 








方法 以 p .print() 的 形式 调用 。 如 果 是 C 语 言 的 话 ， 第 1 个 参数 要 传 入 





指向 Point 的 指针 。 但 是 ， 在 面 癌 对 象 的 语言 中 ， 每 个 类 都 拥有 不 同 的 
命名 空间 ， 其 优势 在 于 《与 C 语 言 相 比 ) 无 需 特 别 注 意 命名 。 


之 前 说 到 了 类 “近似 于 C 中 的 结构 体 ”， 在 C 语 言 中 声明 结构 体 的 类 型 

时 ， 并 不 会 为 其 创建 内 存 空间 。 与 此 相同 ，Diksam 中 也 需要 使 用 new 来 
创建 内 存 空间 ， 相 当 于 C 语 言 中 的 malloc() 操作 。 被 new 创 建 出 来 的 叫 
作对 象 (object) 或 者 实例 〈instance) 。 


Point = new Point() 


Diksam 中 的 类 全 部 属于 引用 类 型 ， 因 此 上 面 代码 中 的 p 相当 于 C 语 言 中 
的 指针 。 但 是 ， 如 果 要 引用 字段 或 者 方法 ， 不 是 使 用 -> 而 是 使 用 . (和 


Java 等 语言 相同 ) 。 


在 Diksam 这 样 的 面向 对 象 语言 中 ， 可 以 使 用 继承 〈inheritance) 的 方式 
为 类 添加 字段 或 者 方法 。 例如， 在 制作 一 个 二 维 图 形 绘制 工具 时 ， 要 

定义 一 个 代表 图 形 的 类 Shape 。 在 Shape 中 保存 着 “颜色 ”等 所 有 图 形 都 
共有 的 属性 。 又 如 , “开始 和 结束 坐标 ”是 直线 〈Line) 中 特有 的 数据 。 

因此 ， 如 果 在 定义 Line 的 时 候 继承 Shape ， 那 么 Line 将 既 具 有 Shape 
的 “颜色 ”属性 ， 又 具有 自己 特有 的 “开始 和 结束 坐标 ”属性 。 


与 此 相似 ，crowbar 和 Diksam 的 源 代 码 中 ， 在 Expression 结构 体 和 
Statement 结构 体 中 的 实现 方法 是 “使 用 枚 举 类 型 区 分 不 同 种 类 (数据 
类 型 ) ， 将 每 个 种 类 的 数据 保存 在 共用 体 中 ”。 可 见 ， 在 C 语 言 中 想 要 实 
现 这 个 功能 ， 必 须 在 程序 员 的 层面 “约定 ”， 但 是 ， 对 于 面向 对 象 的 语言 
来 说 ， 它 本 身 就 能 够 显 式 地 提供 此 功能 。 




















如 此 一 来 ， 在 Line 继承 Shape 的 时 候 ，Shape 被 称 为 Line 的 超 类 
，Line 被 称 为 Shape 的 子 类 。 根 据 不 同 语言 超 类 也 叫 作 父 类 (parent 
class) 和 基 类 (base class) ， 子 类 也 叫 作 孩子 类 (child class) 和 派生 
类 (derived class) 。 另 外 也 有 “把 类 沿 着 超 类 方 癌 妃 溯 到 的 所 有 类 称 为 
祖先 〈ancestor) ， 并 把 子 类 方 同 的 所 有 类 称 为 子孙 (descendant) ”的 
说 法 。 


子 类 的 引用 通 音 可 以 赋值 给 类 型 为 父 类 的 变量 ， 也 就 是 说 Line 或 
者 Circle 〈 圆 ) 可 以 赋值 给 Shape 。 例 如 ， 有 一 个 Shape 类 型 的 数 
据 ， 其 中 可 以 保存 Line 、Circle 、Rectangle 〈 和 矩形 ) 等 图 形 。 


然后 ， 为 了 描述 数组 中 的 所 有 图 形 ， 为 Shape 添加 draw() 方法 (可 以 
EI 











// abstract 和 virtual 的 话题 将 在 后 再 
abstract class Shape { 
(中 间 省 略 ) 
// 声 明 没 有 实现 的 draw() 方 法 

















abstract virtual void draw(); 





在 每 个 子 类 中 履 羡 (override〉 这 个 方法 。 


// 继承 了 Shape 的 Line 类 的 定义 
class Line : Shape { 
(中 间 省 略 》 
override void draw() { 


//Line 的 描绘 处 理 




















} 





基于 上 面 这 些 代 人 码 ， 数 组 中 保存 的 Shape 将 以 如 下 方式 依次 调用 draw() 
方法 ， 如 果 是 Line 的 话 调用 Line 的 描绘 方法 ， 如 果 是 Circle 的 话 则 
调用 Circle 的 描绘 方法 。 这 种 特性 被 称 为 多 态 〈polymorphism) 。 





Shape[] shape_array; 

// 假设 已 经 设置 过 shape_array 的 值 了 

for (i = 60; i < shape _ array.size(); i++) { 
shape.draw() ; 











} 


| 


与 在 crowbar 和 Diksam 中 的 做 法 相似 ，C 语 言 中 如 果 也 使 用 枚 举 类 型 和 共 
用 体 实 现 “ 模 拟 继 承 ” 的 话 ， 束 必须 进行 “根据 枚 举 类 型 用 switch case 判 断 
分 支 ”" 的 处 理 了 【比如 Diksam 的 fix_expression 就 包含 一 个 巨大 的 
switch case ) 。 编 写 switch case 本 身 倒是 不 成 问题 ， 问 题 在 于 当 
枚 举 类 型 的 种 类 增加 的 时 候 ， 束 不 得 不 去 修改 分 散 于 各 处 的 switch 
case 。 特 别 是 Sshape ， 当 增加 图 形 种 类 的 需求 越 来 越 强烈 的 时 候 ， 这 
个 问题 就 变 得 尤为 突出 了 。 在 使 用 了 多 态 后 ， 即 使 图 形 的 种 类 增加 了 ， 
在 上 述 示例 代码 中 也 没有 必要 修改 shape 的 draw( ) 方法 的 调用 位 置 ， 
也 就 不 必 再 次 进行 编译 了 ”。 

* 因 为 Diksam 并 没有 将 字 节 码 保存 为 文件 ， 所 以 不 论 如 何 都 要 重新 编译 。 


束 像 上 面 说 到 的 ， 子 类 的 引用 通常 可 以 赋值 给 类 型 为 超 类 的 变量 (此 人 处 
发 生 的 目 动 类 型 转换 被 称 为 同上 转型 ， 即 up cast〉， 但 是 这 并 不 意味 着 
超 类 的 引用 能 够 赋值 给 子 类 的 变量 。Line 必然 是 Shape ， 但 Shape 不 
一 定 是 Line (说 不 定 是 Circle 或 Rectangle 呢 ) 。 然 而 ， 在 
Diksam、Java、C#、C++ 中 都 有 强制 将 Shape 转换 〈( 即 同 下 转换 ， 
down cast) 为 Line 的 手段 (在 同 下 转换 时 有 可 能 会 友 生 错误 ) 。 


在 Diksam、Java 和 C# 中 ， 除 了 类 之 外 ， 还 有 接口 (interface〉 的 概念 。 
它 类 似 于 只 有 方法 的 声明 的 类 。 


例如 ，Line 和 Circle 可 能 会 有 在 调试 时 显示 坐标 等 信息 的 需求 。 如 果 
只 考虑 Shape 的 话 ， 为 Shape 添加 print() 方法 并 由 各 图 形 进行 覆盖 就 
可 以 达到 目的 了 ， 但 是 如 果 考 虑 到 下 面 的 情况 呢 ? 

_ 想 要 制作 一 个 void debug_write(Printable obj) 函 数 以 便 控 制程 序 “ 只 在 调 
试 模式 时 输出 ”。 

传递 给 这 个 函数 的 参数 对 象 也 许 和 Shape 之 间 并 没有 任何 继承 关系 。_ 

这 种 情况 下 就 可 以 使 用 接口 了 。 

















interface Printable { 
void print(); 





有 了 上 面 的 接口 后 ， 各 个 类 都 可 以 对 其 进行 实现 ， 每 个 类 都 会 有 “print 
自己 的 内 容 ” 这 个 功能 的 通用 接口 〈 实 际 的 编写 方法 请 参考 8.2.4 节 ) 。 


Diksam 中 的 类 只 能 进行 单 继承 (single inheritance) ， 即 一 个 类 只 能 对 


应 一 个 超 类 。 这 种 方式 在 Java 和 C# 中 相同 。 但 是 ， 在 C++ 中 是 允许 多 继 
承 (multiple inheritance) 的 。 


关于 接口 ，Diksam 是 允许 多 继承 的 。 这 一 点 也 和 Java、C# 相 同 (C++ 人 允 
许 类 的 多 继承 ， 因 此 一 般 情 况 下 不 会 出 现 接口 ) 。 


基于 类 的 面 问 对 象 大 概 就 介绍 到 这 里 ， 没 有 介绍 到 的 部 分 请 大 家 参考 市 
面 上 其 他 的 参考 书 吧 。 


8.2.2 ”类 的 定义 和 实例 创建 


Diksam 中 类 的 设计 基本 上 采用 了 C++、Java、C# 的 方式 ， 虽 然 更 像 是 由 
C++ 派 生出 的 类 型 的 语言 ， 但 是 也 有 意 地 改变 了 一 些 地 方 。 


作为 类 定义 的 典型 例子 ， 首 先 让 我 们 考 上 处 一 下 在 二 维 坐 标 上 保存 一 个 点 
的 类 Point (代码 清单 8-2) 。 














代码 清单 8-2”Point 类 的 定义 





1: require diksam.1lang; 

2 

3: public class point { 

4: private double X; 

5: private double y; 

6: 

7: double get x() { 

8: return this.x; 

9: } 
16 : void set x(double x) { 
11: this.x = X; 
12: } 
13: // 由 于 篇 幅 限 制 ， 省 略 get_y()，set_y() 
14: 
15: void print() { 
16: print("x.." + this.x + ",y.." +this.y); 
17: } 
18: // 默认 的 构造 函数 的 名 称 是 “initialize” 





19: constructor initialize(double x, double y) { 


xX; 





21: this.y = y; 

22: } 

23: } 

24: 

25: // 创建 Point 的 实例 

26: Point p = new Point(106, 20); 
27: 

28: // 显示 p 的 内 容 

29: p.print(); 











虽然 看 上 去 和 Java 等 语言 的 类 差不多 ， 但 是 Diksam 的 类 有 以 下 这 些 不 同 


1. 引用 成 员 时 必须 使 用 this. 





看 了 第 8 行 应 该 能 明白 ， 作 为 返回 值 返 回 成 员 变 量 (字段 x 时 写 

作 this .x 。 在 Java 等 语言 中 虽然 可 以 用 这 种 写法 ， 但 如 果 只 写 x 也 可 以 
引用 到 这 个 字段 。 可 是 在 Diksam 中 ， 不 显 式 地 写 上 this. 的 话 就 不 能 引 
用 属于 类 自身 的 字段 和 方法 。 这 里 是 有 意 为 之 。 

类 是 多 个 方法 的 集合 体 ， 有 时 候 也 可 能 会 制作 一 个 相当 巨大 的 类 。 虽 然 
在 Java 等 语言 中 的 做 法 是 为 了 能 够 简单 地 引用 到 字段 ， 但 是 随 着 类 的 增 
大 ， 字 段 会 慢 慢 呈现 出 全 局 变量 的 样子 。 

例如 。java.awt .Component 的 源 代 码 大 约 有 8500 行 〈CJDK5.0) ， 在 

其 中 能 够 自由 地 引用 像 x 、y 这 么 短 名 字 的 属性 ， 这 对 我 来 说 简直 就 是 
自杀 行为 。 

因此 在 Diksam 中 ， 即 使 是 在 类 内 部 引用 类 的 成 员 ， 也 必须 使 用 this. 。 


这 里 采用 了 和 Python 一 样 的 语法 ， 可 能 有 些 人 讨厌 这 样 ， 但 是 我 挺 辟 欢 
的 。 


2. 成 员 的 访问 修饰 符 只 有 public 和 private ， 没 有 protected 








在 Diksam 中 pub1lic 是 从 包 外 部 可 以 访问 的 意思 。 第 3 行 的 class 前 面 附 
加 的 public 就 是 这 个 意思 。 第 4~5 行 为 成 员 设 定 的 private 是 不 能 从 本 


类 以 外 访问 的 意思 。 如 果 同 时 加 上 public 和 private 的 话 ， 就 只 有 当 
前 包 内 可 以 引用 。 


而 且 ， 通 过 代码 清单 8-2 就 应 该 能 理解 ， 在 Diksam 中 类 的 访问 修饰 

符 protected 是 不 存在 的 。 这 样 做 的 原因 将 在 后 面 详 细 介 绍 ， 但 是 基本 
的 思路 是 ， 不 要 让 因为 别人 有 可 能 会 制作 子 类 ， 成 为 放松 访问 限制 的 借 
口 。 





3. 构造 方法 要 使 用 constructor 修饰 符 


构造 方法 (constructor) 是 在 创建 类 的 实例 时 调用 的 方法 ， 通 常会 在 里 
面 编写 类 的 初始 化 处 理 。 


Java、C++、C# 等 语言 的 构造 方法 必须 和 类 名 相同 ， 可 以 使 用 方法 重 载 
(method overload) 实现 多 个 构造 方法 。 方 法 重 载 束 是 多 个 方法 名 称 相 
同 ， 但 参数 的 数量 和 类 型 不 同 ， 内 部 处 理 也 不 同 ( 但 编程 语言 会 认为 它 
们 是 一 个 函数 )”。 


* 重 载 很 容易 和 重 写 混 消 ， 它 们 是 两 个 完全 不 同 的 概念 。 


但 是 ， 方 法 重 载 是 混乱 的 根源 ， 毕 竞 不 是 什么 都 能 用 重 载 来 解决 的 。 
例如 ， 在 代码 清单 8-2 的 Point 类 中 ， 将 直角 坐标 系 的 x,y 传递 给 构造 
方法 。 但 是 如 果 是 使 用 极 坐 标的 应 用 程序 ， 恐 怕 就 要 给 构造 函数 传 入 

9 偏 角 〉 和 p 《 极 径 ) 了 。 但 不 论 是 直角 坐标 系 的 x,y ， 还 是 极 坐标 的 
6 、p ， 都 是 两 个 double 的 组 合 ， 因 此 在 方法 重 载 上 无 法 区 分 〈 这 个 例 
子 中 指出 了 后 面 将 要 介绍 的 OOSCi 的 问题 )》。 总 之 , “构造 方法 要 和 
类 的 名 字 相 同 ? 这 种 设计 本 号 ， 我 认为 是 不 合理 的 。 


因此 在 Diksam 中 为 构造 方法 加 上 了 constructor 关键 字 ， 在 new 的 时 
候 可 以 指定 任意 的 构造 方法 。 


* 如 果 遇 到 了 int 升级 为 double (译注 : 构造 方法 在 同一 位 置 上 的 参数 既 有 int 型 参数 的 也 有 
double 型 参数 的 ) 或 者 继承 ! 的 情况 ， 就 不 能 简单 地 决定 到 底 使 用 哪个 方法 了 。 

































































1 构造 方法 在 同一 位 置 上 的 参数 既 有 子 类 型 的 参数 也 有 父 类 型 参数 。 一 一 译 者 注 


代码 清单 8-2 的 第 26 行 省 略 了 方法 名 。 这 种 情况 下 ， 会 直接 调用 默认 构 
造 方 法 initialize() 〈 第 19 行 ) 。 如 果 第 26 行 写成 下 面 这 样 : 











Point p = new Point.myinit(x, y); 


ee 方法 代替 原来 的 jnitialize() 方 
法 。 


在 定义 类 的 时 候 ， 如 果 没 有 定义 任何 的 构造 方法 的 话 ， 编 译 器 会 上 自动 添 
加 一 个 默认 构造 方法 (default constructor) ， 如 下 所 示 : 


public virtual override constructor initialize() { 


super .initialize(); < 只 有 在 有 超 类 的 时 候 才 有 这 行 语句 











} 





4. 没有 static 的 字段 和 方法 


在 Java、C++ 和 C# 中 ， 使 用 static 关键 字 可 以 定义 一 个 与 实例 无 关 的 
字段 或 者 方法 。 与 实例 无 关 的 意思 就 是 ， 除 了 访问 域 的 问题 外 ， 其 他 方 
面 与 全 局 变量 或 者 函数 完全 相同 。 在 Diksam 中 一 般 都 会 写成 全 局 变量 或 
者 函数 ， 因 此 抛弃 了 static 的 字段 或 者 方法 。 


8.2.3 ”继承 


说 起 类 当然 会 提 到 继承 。 代 码 清 蛙 8-3 就 是 Diksam 中 继承 的 示例 代 
码 。Point2 继承 了 Point1 并 重 写 了 print() 方法 。 











代码 清单 8-3 Diksam 中 的 继承 















































1 require diksam.1lang; 

2 

3 // 不 使 用 abstract 关 键 字 的 类 不 能 被 继承 

4: abstract class Point1 { 

5 double x; 

6 double y; 

7 

8: // 不 使 用 virtual 关 键 字 的 方法 不 能 被 重 写 
9 : Virtual void print() { 

16 : println("x.." + this.x + ", y.." + this.y); 
11: 


} 
12: // 构造 方法 不 使 用 virtual 也 不 能 被 重 写 


13. virtual constructor initialize(double x, double y) { 
14: this.x = X; 
































15: this.y = y; 

16: } 

17: } 

18: 

19: // 继承 时 没有 使 用 Java 的 extends 关 键 字 ， 而 是 使 用 了 C++/C# 的 “:” 
20: class Point2 : Point1 { 

21: // 进行 重 写 的 时 候 要 使 用 override 关 键 字 

22 : override void print() { 

23: println("override: x.." + this.x + ", y.." + this.y); 
24: } 

25: // 构造 方法 也 可 以 被 继承 和 重 写 

26 : override constructor initialize(double x, double y) { 
27: this.x = x + 10; 

28: this.y =y + 16; 

29 : } 

30: } 

31: 

32: // 给 Point1 的 变量 p 赋 值 为 Point2 的 实例 

33 : Point1 p = new Point2(5，16); 

34 : 

35: // 由 于 方法 被 重 写 了 ， 所 以 调用 的 是 

36: // Point2 的 print() 方 法 

37: p.print(); 





代码 清单 8-3 的 执行 结果 如 下 : 


overrided: X..15.666666，y..26.666666 


通过 这 样 一 个 结果 ， 能 看 出 如 下 特征 : 
1. 方法 默认 为 non virtual 


在 第 8 行为 想 要 被 重 写 的 print() 方法 添加 了 virtual 关 键 字 。 在 Diksam 
中 类 会 被 默认 定义 为 不 可 被 继承 〈 在 Java 中 为 final) 的 ， 只 有 显 式 地 添 
加 关键 字 virtual， 方 法 才 可 以 被 继承 。 这 里 的 设计 和 C++、C# 一 致 。 
关于 这 点 我 想 还 存在 很 多 异议 ， 详 细 内 容 我 会 在 后 面 的 章节 中 说 明 。 


2. 重 写 时 必须 使 用 override 关键 字 








第 21 行 ，Point2 重 写 Point1 的 print() 方法 时 在 前 面 添 加 了 override 关 键 
字 “【〈 与 C# 相 似 ) 。 如 果 不 加 override， 又 定义 了 和 超 类 同名 的 方法 的 
话 ， 就 会 友 生 错误 。 


这 点 的 根据 是 “ 重 写 必 须 显 式 进行 ”的 原则 ， 还 得 到 了 一 个 附带 的 好 处 ， 
就 是 如 果 误 定义 了 函数 名 ， 会 发 生 编 译 错误 。 
3. 使 用 : 继承 


在 第 18 行 中 定义 了 继承 Point1 的 Point2 类 。 之 所 以 没有 使 用 Java 的 关 
键 字 extends ， 是 因为 不 想 让 继承 的 关键 字 太 长 ， 因 此 使 用 了 C++/C# 
的 “:”。 


4. 构造 方法 也 可 以 被 继承 和 重 写 

在 Java、C++、C# 中 ， 构 造 方 法 都 是 与 类 名 相同 的 ， 因 此 构造 方法 不 能 
被 继承 《但 是 可 以 通过 super() 调用 ) 。 男 外 ， 从 语法 角度 讲 也 不 可 能 
重 写 构造 方法 。 

但 是 ， 在 Diksam 中 可 以 任意 决定 构造 方法 的 名 字 ， 我 认为 能 够 重 写 构造 
方法 也 不 是 坏事 ”。 因 此 ， 在 Diksam 中 构造 方法 也 可 以 被 继承 和 重 写 。 
基于 这 个 设计 ， 束 可 以 把 在 超 类 中 定义 的 构造 方法 看 作 是 默认 实现 。 

* 实 际 在 Eiffel 中 构造 方法 也 是 可 以 重 写 的 。 


5. 只 有 abstract 的 类 可 以 被 继承 


第 4 行 ， 为 类 Point1 添加 了 abstract 关键 字 。 添 加 了 abstract 的 类 
(抽象 类 ) 只 是 为 了 被 继承 而 存在 的 类 ， 抽 象 类 本 身 不 能 被 实例 化 。 


因此 ， 在 Diksam 中 抽象 类 以 外 的 类 (具象 类 ，concrete class) 不 能 被 继 
不 。 


对 于 这 个 限制 ， 可 能 大 多 数 人 会 持 否 定 的 态度 。 但 是 ， 这 个 设计 并 不 是 


为 了 让 实现 起 来 更 简单 而 妥协 的 结果 ， 是 有 意 为 之 。 至 于 为 什么 要 这 人 么 
做 ， 我 会 在 后 面 的 章节 中 说 明 。 


8.2.4 ”关于 接口 
































与 Java、C# 一 样 ，Diksam 的 类 也 只 能 单 继承 。 能 够 多 继承 的 只 有 接口 
(代码 清单 8-4) 。 
代码 清单 8-4 接口 的 定义 
require diksam.1lang; 
interface Printable { 
void print(); 
} 
class Point : Printable { 


double x; 
double y; 
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override void print() { 
print("x.." + this.x + ", y.." + this.y); 


} 


constructor initialize(double x, double y) { 
this.x = X; 
this.y = y; 
} 
} 


Printable printable = new Point(1606, 20); 


printable.print(); 





在 这 个 例子 中 ， 定 义 了 一 个 具有 print() 方法 的 接口 Printable ， 并 
日 在 Point 类 中 对 其 进行 了 实现 。 


在 多 继承 的 时 候 ， 使 用 逗号 分 隔 多 个 接口 名 。 此 处 的 设计 和 C# 一 样 〈 其 
实 ， 除 了 没有 implements 关键 字 之 ， 其 他 的 和 Java 都 差不多 ) ， 没 有 
什么 特别 的 创新 。 

但 是 ， 在 Diksam 中 ， 接 口 是 不 能 继承 接口 的 。 因 为 接口 间 的 继承 通过 在 
实现 类 中 继承 多 个 接口 就 能 达到 一 样 的 效果 ， 所 以 这 在 现 阶段 还 不 是 必 
须要 做 的 事情 。 


8.2.5 ”编译 与 接口 


在 Diksam 中 ， 如 果 require 了 只 有 某 个 函数 签名 声明 的 .dkh 文 件 ， 那 么 
也 可 以 编译 通过 。 接 下 来 ， 在 函数 执行 的 时 候 会 加 载 定 义 了 其 实现 
的 .dkm 文 件 ， 并 通过 动态 编译 功能 进行 编译 。 


对 于 关 的 方法 来 说 ， 并 没有 特别 地 提供 这 种 机 制 ， 但 是 使 用 接口 也 可 以 
实现 设计 和 实现 的 分 离 。 

首先 ， 在 .dkh 文 件 中 实现 定义 接口 和 返回 接口 对 象 的 函数 〔 代 码 清 单 8- 
BY 














代码 清单 8-5 dlasssub.dkh 


// 在 .dkh 文 件 中 定义 接口 
public interface ClassSub { 
public void print(); 





} 








// 定义 实现 接口 的 返回 接口 对 象 的 函数 


ClassSub create class sub(); 














然后 ， 在 对 应 的 .dkm 文 件 中 ， 定 义 实现 接口 的 类 以 及 返回 类 实例 〈 通 过 
new ) 的 函数 《实现 在 .dh 文件 中 的 所 有 签名 声明 ) 。 


这 样 一 来 ， 在 调用 create_class_sub() 函数 的 时 候 承 会 发 生动 态 加 
载 。 在 此 之 前 ，classsub .dkm 都 不 会 被 加 载 。 





8.2.6 ”Diksam 怎 么 会 设计 成 这 样 ? 


本 市 将 介绍 Diksam 的 面向 对 象 为 什么 会 设计 成 现在 这 样 。 如 果 只 想 了 解 
实现 方法 的 人 可 以 跳 过 本 市 。 


C++ 为 我 们 提供 了 以 下 这 些 不 错 的 参考 。 


C++ 的 方法 默认 为 non virtual 。 这 是 一 个 略微 提升 效率 却 牺牲 了 类 
扩展 性 的 万 恶 设计 。 


在 C++ 中 创建 一 个 类 时 要 尽量 在 方法 前 面 加 上 protected virtual 


O 








面向 对 象 的 圣经 之 作 《Object Oritented Software Construction》 《简称 
OOSCi8l ) 中 对 C++ 作 了 如 下 评价 : 


在 进行 声明 的 时 候 是 否 必须 使 用 virtual 的 意思 就 是 ， 必 须要 有 明确 
的 约束 策略 〈 静 态 约 束 还 是 动态 约束 ) 。 而 这 个 策略 违反 了 开放 / 闭 
锁 原 则 。 “中 间 省 略 ) 


C2 不 明确 标示 “virtual”* 的 时 候 ， 上 默认 使 用 静态 约束 〉 更 加 恶 务 ， 很 
难看 出 这 种 做 法 在 语言 设计 上 的 正当 性 。 正 如 上 面 说 到 的 ， 让 静态 约 
束 和 动态 约束 拥有 不 同 的 含义 ， 这 个 选择 本 刁 就 是 错误 的 ， 在 此 基础 
上 还 要 进行 默认 选择 ， 更 是 错 上 加 错 了 。 


真是 个 灾难 。 


在 C++ 之 后 问世 的 Java 改 成 了 默认 virtual 〈 在 non virtual 的 时 候 要 使 
用 final ) 。 


然而 ， 在 Java 之 后 出 现 的 C# 中 又 改 回 了 默认 non virtual。 关 于 这 点 ， 我 
(通过 网 络 等 途径 〉 也 昕 过 不 少 严 厉 的 批评 ， 但 C# 的 作者 Anders 
Hejlsberg 作 出 了 如 下 回应 : 











There are two schools of thought about virtual methods. The academic school 
of thought says,"Everything should be virtual, because I might want to 
Override it someday." The pragmatic school of thought, which comes from 
building real applications that run in the real world, says, "We've got to be 
real careful about what we make virtual." 


翻译 : 

在 virtual 方 法 的 问题 上 存在 两 派 。 学 术 派 主张 “任何 事物 都 应 该 是 virtual 
的 。 因 为 有 一 天 我 可 能 需要 重 写 它 ”。 与 此 相对 ， 实 用 派 主张 构建 在 真 
实 世 界 中 运行 真实 的 应 用 ， 他 们 认为 “在 进行 virtual 的 时 候 ， 本 来 就 应 该 
引起 注意 ”。 

说 到 这 里 我 想起 来 ，《OOSC》 的 作者 Bertrand Meyer 是 大 学 教授 。 


方法 的 重 写 ， 葵 换 了 一 部 分 在 超 类 中 实现 的 行为 。 如 果 不 是 从 一 开始 束 
决定 了 要 蔡 换 的 目标 方法 ， 而 是 随意 地 重 写 方法 的 话 ， 那 么 在 之 后 超 类 

















进行 升级 等 改变 时 ， 就 无 法 保证 子 类 的 正常 运行 。 总 而 言 之 ， 应 该 慎重 
对 竺 这 种 随便 给 别人 的 类 打 补 丁 的 行为 。 


基于 以 上 这 些 ， 更 进一步 地 让 我 有 了 “一 般 情况 下 ， 类 应 该 默认 为 不 可 
继承 "的 想法 。 


下 面 我 要 介绍 一 下 在 这 个 问题 上 “实用 派 * 的 一 些 想 法 。 


《Effective Java 中 文 版 (第 2 版 )》 趾 第 15 章 中 “要 么 专门 为 继承 而 设计 
并 给 出 说 明文 档 ， 要 么 禁止 继承 ”说 道 : 


这 不 仅仅 是 理论 性 的 问题 ， 如 果 不 是 专门 为 继承 而 设计 并 给 出 相应 文 
档 ， 又 非 final 的 具象 类 ， 一 旦 修改 了 内 部 ， 就 要 承受 与 其 所 有 子 类 
关联 的 地 方 都 有 可 能 发 生 bug 的 后 果 。 


这 个 问题 的 最 佳 解决 方案 是 ， 对 于 那些 并 非 为 了 安全 地 进行 子 类 化 
而 设计 和 编写 文档 的 类 ， 茶 止 其 子 类 化 。 


《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》090 日 文 第 1 版 p.31 
继承 使 子 类 获得 了 父 类 里 实现 的 详细 内 容 ， 因 此 说 “继承 破坏 了 封装 
性 的 概念 "[Syn86]。 子 类 的 实现 和 父 类 的 实现 有 着 紧密 的 联系 ， 因 此 
改变 父 类 的 实现 会 对 子 类 产生 非常 强烈 的 影响 。 
《中 间 省 略 ) 
对 于 这 点 有 一 个 挽救 的 方法 ， 就 是 只 继承 抽象 类 。 
对 于 “只 继承 抽象 类 ”这 个 方法 ， 其 实在 Diksam 中 已 经 实现 了 。 
举 个 例子 ， 在 UNIX 的 经 典 GUI 工 具 包 Motif 的 类 层级 中 ，PushButton 
(和 常 被 称 为 GUI 的 按钮 是 Label 的 子 类 。Label 具 有 显示 一 个 字符 串 的 
功能 ， 在 定义 了 继承 Label 的 PushButton 时 ， 可 以 复 用 Label 中 的 一 些 
实现 。 
但 是 ， 后 来 出 现 的 Java 的 AWT 中 ，Label 和 Button 之 间 就 不 存在 继承 


关系 了 。 并 且 ， 在 Swing 中 作为 JButton 、JMenuItem 
、JToggleButton 的 超 类 都 引入 了 AbstractButton 抽象 类 。 


























这 样 虽然 会 减少 复 用 ， 却 让 随意 地 继承 Label 〈 像 Motif) 的 方式 成 为 
了 过 去 。 如 果 有 通用 的 部 分 ， 就 明确 地 定义 抽象 类 ， 这 种 做 法 可 以 说 是 
非常 现代 化 的 方式 。 


从 我 的 自身 经 验 来 讲 ， 从 零 开始 设计 的 部 分 ， 我 从 来 没有 想 过 要 它 继 承 
具象 类 。 实 际 上 在 使 用 现存 的 C++ 类 库 ” 时， 会 有 "这 个 方法 如 果 是 
Virtual 的 就 要 重 写 ”的 想法 。 这 样 一 来 ，《〈 对 头 文件 来 说 ) 直接 参考 源 代 
人 码 去 研究 重 写 的 时 候 ， 会 在 不 经 意 间 陷入 程序 库 的 实现 中 。 这 与 “把 字 
段 写成 public ”的 想法 一 样 ， 属 于 不 健康 的 想法 。 


* 具 体 来 说 就 是 MFC (Microsoft Foundation Class) 。 














顺 痢 这 个 思路 ， 那 么 “ 仅 子 类 可 以 访问 ”这 个 访问 修饰 符 protected 也 可 
以 不 需要 。 


至 少 在 C++、Java 和 C# 的 思路 中 ， 访 问 修饰 符 是 为 了 对 自己 〈 或 自己 的 
团队 ) 之 外 的 开发 人 员 隐 藏 实现 而 使 用 的 《应 该 可 以 作为 佐证 的 是 ， 如 
果 是 同一 个 类 ， 那 么 即使 是 不 同 的 实例 ， 也 可 以 相互 引用 private 成 
员 ) 。 如 果 是 这 样 的 话 ， 也 就 没有 理由 减弱 子 类 的 访问 限制 了 。 但 如 果 
是 自己 创建 的 子 类 的 话 ， 可 以 在 包 范围 内 进行 访问 (与 Java 一 样 ， 
Diksam 也 将 包 范围 作为 默认 项 ) 。 如 果 想 要 别人 也 可 以 创建 子 类 的 话 ， 
那 就 必须 要 公开 了 * 。 

* 在 Template Method 模 式 中 经 常会 用 到 ， 为 了 显 式 地 表现 出 “这 里 有 需要 在 子 类 中 修改 的 地 方 > 从 


而 使 用 protected ， 但 如 果 只 是 用 在 这 种 用 途上 ， 我 觉得 还 不 如 使 用 public 。 在 使 用 设计 模 
式 的 时 候 ， 一 般 情况 下 必须 要 有 设计 文档 。 


本 节 昌 然 介 绍 了 不 少 内 容 ， 但 仅 代 表 我 个 人 观点 。 而 且 我 一 直 认 为 自由 
地 决定 设计 方案 是 语言 作者 的 特权 ， 因 此 大 家 在 将 来 制作 属于 自己 的 编 
程 语言 时 ， 也 可 以 采用 你 们 自己 认为 最 好 的 方式 。 

8.2.7 ”数组 和 字符 串 的 方法 

在 7.3.4 节 中 介绍 过 ， 在 Diksam book_ver.0.2 中 没有 取得 数组 大 小 和 字符 
串 长 度 的 方法 (method) 。 在 引入 了 类 的 概念 后 ， 现 在 我 们 来 实现 这 个 
i 


要 实现 的 方法 如 表 8-1 所 示 。 




































































表 中 的 T 表示 数组 元 素 的 类 型 ， 也 就 是 说 ， 可 以 使 用 insert() 插入 使 
用 代码 double[] a; 声明 的 数组 ， 但 只 能 是 double 型 (这 是 当然 的 
啦 ) 。 


表 8-1 数组 和 字符 串 的 方法 











方法 名 称 和 参数 





删除 数组 的 元 素 
取得 字符 串 长 度 
截取 从 pos 开始 长 度 为 len 的 字符 串 


但 由 于 在 Diksam 中 数组 和 字符 串 并 不 是 类 ， 因 此 不 能 创建 出 继承 它们 的 


入 


8.2.8 ”检查 类 的 类 型 














Diksam 和 Java 一 样 使 用 instanceof 运算 符 。 





instanceof 运算 符 用 于 判断 某 个 实例 是 否 属于 某 个 类 。 


例如 ， 继 承 了 Shape 的 Line 和 Circle 。 


Shape shape = new Line(); 


上 面 的 语句 给 shape 赋值 了 Line 的 实例 ， 此 时 shape instanceof 
Line 返回 真 。 当 然 ，shape instanceof Circle 返回 假 。 





但 是 ， 虽 然 shape instanceof Line 返回 真 ， 但 是 返回 真 的 也 不 仅 限 
于 Line 的 实例 。 假 设 Line 存在 子 类 ArrowLine ， 并 且 shape 实际 也 指 
问 了 ArrowLine 的 话 ，shape instanceof Line 还 是 会 返回 真 。 这 就 
是 instanceof 运 算 符 “判断 某 个 实例 是 人 否 属 于 某 个 类 ”的 含义 。 








instanceof 也 可 以 用 于 判断 实例 是 否 实现 了 某 个 接口 。obj instanceof 
Printable 如 果 为 真 ， 说 明 obj 实现 了 Printable 。 


8.2.9” 癌 下 转型 


Diksam 可 以 将 类 同 下 转型 。 
Java、(C# 等 语言 也 可 以 同 下 转型 ， 像 下 面 这 段 代 人 码 。 


Shape shape = new Line(); 


Line line = (Line)shape; 





只 是 ， 前 置 这 种 转换 运算 符 的 书写 方式 ， 在 成 员 、 数 组 、 方 法 调用 堆 竺 
了 很 多 层 的 时 候 ， 如 果 要 进行 转换 ， 视 线 必 须要 回 到 左边 。 另 外 ， 在 转 
型 后 如 有 果 要 再 次 引用 其 转型 后 的 结果 的 话 ， 外 面 必 须要 加 上 括号 。 


// 取 得 [piyo.foo[i]l.bar.fuga[j].getobj()] 的 对 象 ， 

// 向 下 转型 为 Bazz， 

// 并 取出 其 成 员 hoge。 

Hoge hoge = ((Bazz)piyo.foo[i].bar.fuga[j].getobj()).hoge; 











C# 中 和 仓 仁 后 置 转型 运算 从 as ， 但 是 由 于 优先 级 低 ， 因 此 还 是 要 使 用 括 
写 。 


由 于 这 点 不 是 很 方便 ， 因 此 在 Diksam 中 使 用 了 后 置 的 转型 运算 符 。 书 写 
方式 为 : :类 型 名 :> 。 上 面 的 例子 在 Diksam 中 写成 了 如 下 代码 。 


Hoge hoge = piyo.foo[i]l.bar.fuga[j].getobj()::Bazz:>.hoge; 








男 外 ， 也 可 以 实现 从 接口 同 下 转型 到 接口 。 下 面 的 例子 中 ，Hoge 在 实 
现 了 Serializable 的 情况 下 可 以 成 功 转型 。 





Printable p = new Hoge(); 
Serializable s = p::Serializable:>; 


| 


这 种 做 法 在 类 的 继承 关系 上 并 不 存在 “ 回 下 ”转换 。 而 且 这 个 例子 叫 
作 “ 向 下 转换 ”是 否 贴切 也 是 个 问题 ”。 


* 因 此 ， 在 例如 Java 的 编程 语言 设计 中 ， 不 叫 作 “ 向 下 转换 * 而 叫 作 “缩小 转换 ”(narrowing 
cast) 。 但 是 鉴于 大 家 比较 习惯 说 “ 回 下 转换 "?"， 因 此 Diksam 还 是 采用 了 这 个 说 法 。 


8.3 ”关于 类 的 实现 继承 和 多 态 


实现 类 最 应 该 关心 的 不 就 是 继承 和 多 态 的 实现 方法 吗 ? 
不 是 这 么 想 ， 至 少 我 是 。 


因此 ， 先 把 其 他 细节 的 话题 放 在 一 边 ， 本 章 我 们 就 来 介绍 一 下 Diksam 中 
继承 和 多 态 的 实现 。 


8.3.1 字段 的 内 存 布局 


首先 要 考虑 的 是 ， 在 继承 了 其 他 类 的 情况 下 ， 字 段 在 内 存 中 的 布局 。 


典型 的 例子 就 是 ， 考 虑 创建 类 型 Line 和 Circle ， 并 继承 表示 二 维 
的 “图 形 ” 的 类 shape 。Shape 中 保存 着 “颜色 ”等 图 形 的 通用 属性 。 

在 Line 和 Circle 中 ， 也 保存 着 表示 各 上 自 图 形 的 必 备 信息 。 图 8-4 中 记 
《图 中 对 方法 也 进行 了 摘 述 ， 有 具体 会 在 介绍 多 态 时 进行 说 
明 ) 。 



































不 管 别 人 是 
























gat olor() ;int 
set_ color (color:int) 


draw () 


start x:doubleB|lcenter x:double 
start _y:double||center y:double 
end x:double radius:double 


end y:double draw () 


图 8-4 “图 形 ” 的 继承 结构 


图 8-4 中 ，Shape 中 保存 了 用 int 型 的 “颜色 编码 ”，Line 中 保存 了 直线 
的 起 点 和 终点 。 我 想 聪明 的 读者 一 眼 就 能 看 明白 ，start_x、start_y 
是 起 点 坐标 ，end_x 、end_y 是 终点 坐标 ，Circle 的 center_x 
、center_y 是 原点 坐标 ，radius 是 半径 。 


此 时 ， 字 上 段 数据 的 保存 方式 如 图 8-5 所 示 ， 超 类 字段 的 后 面 紧 跟着 子 类 
中 增加 的 字段 。 


Line 的 字段 Circle 的 字段 


Shape 的 部 分 {4 > 





SU Circle 增加 的 部 分 
Line 增加 的 部 分 | Lode 


图 8-5 ”字段 的 存储 方式 


使 用 这 种 存储 方式 的 好 处 在 于 ， 在 引用 Shape 类 型 变量 shape 的 字段 
shape.color 时 ， 有 具体 的 对 象 实际 上 无 论 是 Line 也 好 ，Circle 也 
好 ， 它 们 在 引用 color 时 的 偏 移 量 都 是 相同 的 。 


如 有 果 出 现 了 多 继承 的 话 情况 就 变 得 复杂 了 ， 但 是 由 于 Diksam 的 类 只 能 单 
继承 ， 因 此 字段 的 储存 也 可 以 使 用 这 种 方式 实现 。 


8.3.2 ”多 态 一 一 以 单 继 承 为 前 提 
继承 ， 不 仅 要 能 引用 字段 ， 还 必须 要 实现 多 态 。 回 到 图 8-4，Sshape 中 
定义 了 get_color() 、set_color() 和 draw() 三 个 方法 。 其 中 


draw() 是 abstract 方法 ， 并 且 会 在 Line 和 Circle 中 重 写 。 因 此 ， 只 需 
编写 代码 就 可 以 了 。 


shape. draw( ); 


此 时 shape 不 论 是 Line 还 是 Circle ， 都 会 执行 draw( ) 方法 。 






































限制 为 单 继承 的 好 处 就 在 于 容易 实现 。 只 需要 让 类 的 实例 中 保存 着 指 问 
方法 实现 的 指针 ”数组 即 可 。 这 里 说 的 数组 恐怕 是 原来 的 C++ 用 语 ， 一 
般 被 称 为 vtable (virtual method table 的 简称 ) 。 


* 这 里 也 不 一 定 非 要 是 C 语 言 中 所 说 的 指针 《内 存 地 址 ) 。 在 Diksam 中 就 是 DVM_Virtual- 
Machine 中 保存 着 的 Function 表 的 下 标 。 


vtable 与 类 相对 存在 ， 同 一 类 的 实例 指 癌 同一 个 vtable， 并 在 new 的 时 候 
将 vtable 传 递 给 实例 。 由 于 Shape 包含 了 三 个 方法 ， 因 此 我 们 通过 下 面 
的 列表 来 调用 Shape 的 方法 。 


。 get_color() 在 vtable 上 的 下 标 为 0 
。 set_color() 在 vtable 上 的 下 标 为 1 
e。 draw() 在 vtable 上 的 下 标 为 2 


原则 是 子 类 的 vtable 首 先 要 具有 和 超 类 同样 的 内 容 。 但 在 方法 重 写 的 情 
况 下 会 丛 换 原 有 的 位 置 ， 而 在 子 类 中 增加 方法 的 时 候 ， 子 类 的 vtable 也 
会 变 得 比 超 类 的 长 《图 8-6) 。 














Shape 的 vtable 


Line 的 实例 







;| ;通常 会 复制 同样 的 内 容 
ViYy: 
Line,. 的 vtable 
sa 重 写 的 时 候 会 替换 


.” 原 有 的 位 置 


,和 
Circle 的 vtable 


~» 
vo 


i 如 果 在 子 类 中 增加 方法 ， 
vtable 也 会 随 之 扩展 


图 8-6 在 单 继 承 的 情况 下 的 多 态 

使 用 这 个 处 理 方式 ， 缺 点 在 于 每 次 调用 方法 时 都 要 引用 vtable， 所 以 多 
少 会 有 些 延 迟 。 而 优点 在 于 不 论 类 的 继承 关系 有 多 深 ， 或 者 类 中 的 方法 
有 多 多 ， 方 法 调用 的 开销 都 是 基本 相同 的 。 


C++ 只 要 在 不 使 用 多 继承 的 时 候 ， 通 常 部 是 用 这 种 处 理 方式 实现 继承 











的 。 但 C 语 言 就 不 可 能 用 这 个 处 理 方式 实现 继承 和 多 态 了 (GTK+、X- 
Window Toolkit 等 ) 。 


Diksam 的 类 只 能 单 继 承 ， 但 是 可 以 多 继承 接口 。 因 此 ， 对 于 字段 来 说 是 
以 单 继承 为 前 提 的 ， 但 是 对 于 方法 的 调用 来 说 ， 就 不 得 不 考虑 多 继承 的 
情况 。 在 多 继承 时 ，vtable 的 下 标 就 失去 了 唯一 性 ， 也 惑 无 法 用 这 种 处 
理 方式 来 应 对 了 。 


8.3.3 ”多 继承 


我 们 以 C++ 为 例 ， 看 一 下 它 是 如 何 实现 多 继承 的 。 细 节 的 地 方 因 人 处理 器 
而 异 ， 比 如 有 继承 了 类 A 和 B 的 类 C， 首 先 A 和 C 如 果 是 “主要 继承 关 
系 ” 的 话 ， 那 么 不 论 是 字段 还 是 方法 ， 都 可 以 使 用 和 单 继承 时 相同 的 处 
理 方式 ， 但 问题 在 于 C 的 对 象 在 被 当做 B 引 用 《将 C 同 上 转型 为 B) 的 时 
候 。C++ 在 此 时 会 将 指针 本 身 转换 为 B 的 vtable 对 应 的 地 址 。 


这 个 现象 可 以 在 代码 清单 8-6 中 得 到 验证 。 








C++ 





代码 清单 8-6 C++ 的 指针 转换 





1: #include <stdio.h> 

2 

3: class A{ 

4: public: 

5 int a; 

6: virtual void a method() {} 
7: }; 

8 : 

9 : class B { 

16 : public: 

11: int b; 

12: virtual void b method() {} 
13: }; 

14: 

15 : // 继 承 了 类 A 和 类 B 的 类 C 

16: class C : public A, public B { 
17: public: 

18: int c; 

19: void a method() {} 

20: void b method() {} 

21: }; 

22 : 


23 : int main(void) 











25 : C *c = new C(); 

26 : 

27: // 显示 new 过 的 变量 c 的 指针 

28: print("c..%p\n", b); 

29 : 

36: // 将 其 赋值 到 B* 型 的 变量 中 ， 并 显示 
31: B *b = C; 

32: print("c as B..%p\n", b); 

33: 

34 : // 显 示 A，B， (各 类 中 的 成 员 变 量 〈 字 段 ) 的 地 址 
35 : print("&A->a..%p\n", &c->a); 
36: print("&B->b..%p\n", &c->b); 
37: print("&C->d..%p\n", &c->c); 
38: 

39 : return 0; 

46 : } 





在 我 的 环境 中 ， 输 出 结果 如 下 我 的 环境 int 和 指针 都 是 4 个 字 节 ) 。 


C..OX804a668 

Cc as B..0Xx804a616 
&A->a. .0X8694a66c 

&B->b. .06x8604a0614 

&C->d. .90X864a618 





内 存 结构 如 图 8-7 所 示 。 在 将 指针 赋值 给 Bx 型 的 变量 时 ， 指 针 所 指 加 的 
地 址 发 生 了 改变 。 可 以 确认 在 A 的 字段 a 和 B 的 字段 b 之 间 存 在 着 B 的 
vtable 占 用 的 内 存 空 间 。 








c 作为 A 或 者 Cc 被 引用 时 的 vtable 
引用 时 的 指针 
ox804a00c 
c 作为 B 被 引用 时 的 vtable 


被 向 上 转型 为 B 的 时 


0x804a010 
候 指针 指向 了 这 里 ”一 A/ 


0x804a014 


0x804a018 





图 8-7 C++ 的 多 继承 


在 C++ 中 ， 只 有 这 样 的 《自动 的 ) 转换 才 可 能 改变 指针 的 值 ，C 像 是 通 
过 void* 保存 了 对 象 ， 给 入 的 感觉 非 第 不 好 一 一 其 实 我 也 有 过 这 样 的 经 
历 ， 当 然 这 是 题 外 话 。 


如 果 在 癌 上 转型 ( 通 第 向 上 转型 是 自动 进行 的 ) 为 B 的 时 候 移动 指针 ， 
不 但 可 以 用 普通 的 方式 引用 到 B 的 字段 ， 由 于 vtable 也 是 各 自 保存 的 ， 
此 就 实现 了 多 态 。 


只 是 在 Diksam 中 ， 如 果 移 动 了 指针 的 话 会 给 GC 的 实现 带 来 困难 。 现 在 
的 Diksam， 指 向 堆 的 指针 类 型 是 DVM_0bject* ， 但 如 果 像 C++ 一 样 移动 
间 针 的 话 ， 就 会 由 于 没有 指 问 最 初 的 DVM_0bject 而 给 GC 的 mark 阶 段 造 
成 腑 烦 。 男 外 ， 由 于 Diksam 不 能 多 继承 字段 ， 如 果 使 用 C++ 的 处 理 方式 
就 显得 有 点 过 度 设计 了 。 








8.3.4 Diksam 的 多 继承 
在 Diksam 中 采用 了 如 下 的 处 理 方 式 。 


。 不 是 在 对 象 的 开头 部 分 保存 vtable， 而 是 在 引用 了 对 象 的 值 中 。 这 
人 各 对 象 本 映 的 引用 ， 同 时 也 保存 了 指向 vtable 的 引 








。 在 同上 或 者 是 同 下 转型 时 ， 蔡 换 引 用 值 中 的 vtable 避 ® 可 以 了 。 


在 Diksam 中 ， 值 被 保存 在 DVM_0bject 共用 体 中 ， 并 且 使 
用 DVM_0bjectRef 结构 体 引 用 其 中 的 对 象 。 


typedef union { 
int 


int_ value; /* 值 为 整数 时 */ 





double double value; /* 值 为 实数 时 */ 


DVM_ObjectRef object; /* 值 为 对 象 时 */ 
} DVM Value; 








DVM_ObjectRef 定义 如 下 。 





typedef struct { 
DVM_VTable *v_table; /* vtable 的 指针 */ 
DVM Object *data; /* 数据 本 号 */ 
}DVM_ObjectRef; 








| 


在 8.3.2 节 中 介绍 了 在 Diksam 中 类 继承 的 处 理 方式 一 一 使 用 vtable 实 现 多 
态 ， 并 且 在 转型 为 接口 的 时 候 蔡 换 引 用 值 中 的 vtable (DVM_ObjectRef 
的 v_table 成 员 ) 。 


当然 ， 基 于 上 面 的 处 理 方 式 也 会 出 现 对 象 不 知 着 自己 原本 是 什么 类 型 的 
情况 ， 因 此 在 vtable 中 保存 了 指向 对 象 原本 类 型 的 指针 。 








struct DVM VTable tag { 
ExecClass *exec_class; /* 指向 类 的 指针 */ 
int table size; /* vtable 的 元 素数 */ 





VTableItem *table; /* vtable 本 身 */ 
}; 








其 中 叫 作 ExecClass 的 类 型 就 是 保存 类 在 运行 时 信息 的 类 型 ， 每 个 类 只 
对 应 一 个 ， 在 DVM_VirtualMachine 中 以 数组 的 方式 保存 (这 个 数组 的 
创建 时 机 请 参考 8.4.7 节 ) 。 


typedef struct ExecClass tag { 
DVM Class *dvym_ class; 
ExecutableEntry *executable; 
char *package_name ; 
char *name; 
DVM_Boolean is implemented; 
int class_ index; 
struct ExecClass tag *super class; 


DVM_ VTable *class table; 
int interface_count; < 请 注意 这 个 地 方 
struct ExecClass tag **interface; < 和 这 个 地 方 
DVM_VTable **interface v_ table; 
int field count; 
DVM_TypeSpecifier **field type; 

} ExecClass; 





如 图 8-8 所 示 在 图 中 省 略 了 接口 的 ExecClass ) 。 


vtable 本 身 





四 ws Dy 
四 9 ws 组 


字段 的 数据 类 实现 了 多 少 ， 接 口 鳃 
Bi 要 保存 多 少 vtable。 在 
中 Bk 向 上 转型 的 时 候 ; a 
: 数 组 的 下 标 作 


用 于 替 光 DVM Value 
的 vtable 


图 8-8 Diksam 的 多 继承 


如 此 一 来 ， 在 向 上 转 侠 的 时 候 ， 要 找到 相应 的 vtable 并 营 换 DVM_Value 
中 的 〈DVM_ ObjectRef 的 ) v_table 成 员 。 在 使 用 up_cast 指令 (将 
0 时 ， 这 个 接口 的 数组 下 标 将 会 作 关 党 作 数 进行 传 





补充 知识 “无 类 型 语言 中 的 继承 


作为 像 Diksam 和 C++ 这 样 的 静态 类 型 的 语言 ， 不 论 是 引用 字段 的 时 候 还 
是 调用 方法 的 时 候 ， 都 能 够 一 下 子 引用 到 在 编译 时 ”就 已 经 决定 的 索引 
值 。 多 继承 的 情况 则 更 加 复 森 ， 但 不 论 怎 样 都 可 以 使 用 “固定 的 开销 ” 引 
用 到 字段 或 者 方法 ， 这 点 是 没有 变化 的 。 


*# 由 于 Java 的 class 文 件 中 成 员 名 字 是 字符 串 ， 因 此 发 生 在 加 载 /链接 时 。 

与 此 相对 ， 在 像 Ruby 这 样 没 有 变量 类 型 的 语言 中 ，a.hoge 语句 〈 单 纯 
的 实现 ) 由 于 在 编译 时 并 不 知道 a 的 类 型 ， 没 有 办 法 一 下 子 就 访问 到 索 
引 值 ， 因 此 必须 要 利用 成 员 名 字 进 行 搜索 。 也 就 是 说 ， 根 据 成 员 数 量 不 
同 ， 检 索 需 要 的 时 间 也 不 同 ， 所 以 引用 成 员 时 就 不 是 “固定 的 开销 ”了 。 


尽管 如 此 ， 如 宋 使 用 二 分 法 检索 〈 假 如 有 1000 个 成 员 的 话 ， 用 10 次 以 内 
的 循环 就 可 以 完成 ) 的 话 ， 也 可 以 看 作 是 “固定 的 开销 ”。 


8.3.5 重 写 的 条 件 
重 写 是 在 调用 超 类 的 方法 时 ， 实 际 被 调用 的 是 (也 许 是 ) 子 类 的 方法 。 

















从 调用 者 看 上 去 好 像 调用 的 是 超 类 的 方法 ， 但 是 实际 上 调用 的 却 是 子 类 
的 方法 ， 而 这 个 子 类 的 方法 说 不 定 会 让 调用 者 吓 一 跳 。 


例如 ， 子 类 方法 的 返回 值 类 型 要 比 超 类 的 “ 军 ”( 被 称 为 共 变 ， 
covariant) 。 当 超 类 有 以 下 方法 时 ， 如 果子 关 要 对 其 进行 重 苇 的话 ， 可 
类 的 getShape() 方法 不 能 返回 Shape 以 外 的 类 型 ”。 


Shape getSshape() ; 


子 类 的 返回 类 型 只 要 是 比 超 类 “ 军 ? 就 算 合 法 。 也 吏 是 将， 像 下 面 这 样 
将 Shape 的 子 类 作为 返回 值 的 重 写 是 合法 的 。 


* 当 然 ，null 是 个 例外 。 








// Circle 如 果 是 Shape 的 子 类 的 话 ， 这 个 方法 就 是 合法 的 
Circle getShape(); 





这 种 情况 下 ， 子 类 的 getshape( ) 方法 一 定 只 能 返回 Circle 类 型 。 但 是 在 
调用 者 ， 期 符 的 是 比 Circle 更 “ 宽 ” 的 Shape 类 型 ， 这 是 没有 问题 的 。 相 
反 ， 如 果 期 竺 的 是 Circle ， 返回 的 却 是 其 他 shape (Line 或 

者 Rectangle ) 的 话 ， 真 的 会 被 吓 一 跳 吧 。 


像 这 样 将 返回 值 共 变 的 好 处 有 很 多 ， 比 如 限制 了 Java 中 0bject 类 的 
J 方法 的 返回 值 ， 以 减少 不 必要 的 转型 。Java 从 JDK1.5 开 始 具备 
文 个 了 


在 Diksam 中 ， 参 数 的 情况 却 是 相反 的 。 子 类 方法 的 参数 类 型 要 比 超 类 
的 “ 宽 ”( 被 称 为 反 变 ， contravariant) 。 在 超 类 中 有 如 下 方法 时 : 


void drawShape(Circle circle); 


在 子 类 中 可 以 合法 地 定义 如 下 方法 : 


void drawShape(Shape shape); 





子 类 的 drawShape() 能 接受 的 参数 ， 超 类 的 drawShape() 应 该 也 能 接 
受 ， 这 样 的 话 调 用 者 就 不 会 被 吓 一 跳 了 。 


至 于 访问 修饰 符 ， 子 类 的 方法 必须 要 比 超 类 的 “宽松 *。public 的 方法 
不 能 被 重 写 为 private 的 ， 反 之 则 合法 。 


9.2.3 节 会 为 Diksam 引 入 异常 的 概念 ，Diksam 的 异常 处 理 属 于 Java 风 格 的 
异常 检查 (把 方法 中 可 能 抛 出 的 异常 全 部 用 throws 列 出 ， 并 由 编译 器 
检查 ) 。 这 种 情况 下 ， 子 类 的 方法 不 能 比 超 类 抛 出 更 多 的 异常 。 


让 我 们 再 说 回 参数 ，Diksam 在 编译 器 进行 静态 检查 时 允许 反 变 是 非常 方 
便 的 设计 ， 但 是 在 实际 应 用 中 ， 有 时 也 需要 同时 允许 共 变 的 存在 。 假 设 
Shape 有 设置 样式 的 setStyle(Style style) 方法 ，Line 和 Circle 
需要 的 样式 也 应 该 是 根据 不 同 图 形 定制 的 Style 的 子 类 一 一 但 是 ， 如 果 
实现 了 这 项 功能 的 话 ， 一 定 要 在 调用 Shape 的 setStyle() 时 进行 一 些 
运行 时 检查 。 


相似 的 话题 在 7.3.2 节 的 补充 知识 中 已 经 作 过 介绍 ， 在 Java 中 假设 存在 超 
类 Shape 和 子 类 Circle ， 那 么 Circle 的 数组 会 自动 成 为 Shape 数组 的 子 
类 。 这 个 设计 可 能 会 引发 叫 作 ArrayStoreException 的 运行 时 错误 。 


如 果 将 Shape[] 和 Circle[] 看 作 是 类 的 话 ， 束 应 该 能 看 出 来 它们 是 共 
变 参 数 的 一 种 。 


// 将 “Shape 数 组 ”看 作 

class ShapeArray { 
// 取得 数组 元 素 的 方法 
Shape get(int index); 
// 设置 数组 元 素 的 方法 


void set(int index, Shape shape); 


















































} 





// CircleArray 是 ShapeArray 的 子 类 

class CircleArray extends ShapeArray { 
// 返回 值 的 共 变 > 没 问 题 
Circle get(int index); 
// 参数 类 型 的 共 变 > 必须 进行 运行 时 检查 


void set(int index, Circle circle); 
































8.4 天 于 类 的 实现 

本 节 将 要 介绍 的 是 在 类 的 实现 中 除了 继承 和 多 态 的 部 分 。 
由 

Diksam 在 声明 变量 的 时 候 和 Java 相 同 ， 形 式 如 下 所 述 : 


类 型 变量 名 ; 











8.4.1 语法 规 由 























我 们 在 6.1.5 市 中 曾 提 人 到， 有些 语 言 是 将 类 型 写 在 后 面 的 。 


// 以 ActionScript 为 例 
var a:int; 


将 类 型 写 在 后 面 的 语法 结构 在 制作 语法 分 析 费 时 会 非 第 轻松 ， 但 是 在 
Diksam 中 ， 使 用 了 C 和 Java 程 序 员 习 惯 的 语法 结构 ， 即 将 类 型 写 在 前 面 
这 么 做 了 才 知 道 ， 这 是 一 条 坎坷 的 路 。 


如 末 以 “类 型 变量 名 ; ”的 语法 进行 声明 ， 在 一 开始 就 能 得 到 “类 型 >， 从 
而 一 下 子 就 可 以 知道 这 是 一 条 声明 语句 ， 但 也 只 有 ;int 和 double 可 以 
作为 保留 字 ，Point 之 类 的 类 名 字 惑 不 能 够 成 为 保留 字 了 。 因 此 ， 只 看 
这 个 是 不 能 知道 类 名 字 的 。yacc 虽 然 会 预 读 一 个 符号 ， 但 是 ， 例 如 下 面 
这 样 的 数组 声明 ， 


Point[] p; 














即使 是 预 读 了 Point 后 面 “[” 也 不 能 搞 清 以 下 两 点 : 


。 是 数组 型 变量 Point 要 通过 [] 引用 元 素 ? 
。 还 是 要 声明 Point 类 的 数组 ? 


在 C 中 ， 要 想 使 用 类 型 Point， 就 必须 要 在 使 用 的 地 方 前 面 声明 这 个 类 
型 。 在 这 种 语言 中 使 用 的 处 理 方式 是 : 在 声明 的 时 候 把 类 型 由 解析 器 传 
递 给 词法 分 析 器 ， 词 法 分 析 器 随后 把 它 登 记 为 标识 符 ， 之 后 的 Point 就 会 








被 当做 类 型 名 称 来 处 理 。 但 是 ， 作 为 一 门 当 下 的 编程 语言 来 说 似乎 不 太 
雅致 。 在 C 语 言 中 ， 为 了 表现 诸如 Husband 引用 了 Wife ，Wife 又 引用 
| 这 样 的 相互 引用 ， 不 得 不 使 用 “预先 声明 结构 体 标签 ”的 怪异 
pa 

因此 ，Diksam 的 语法 规则 如 下 : 

declaration statement 


: type_specifier IDENTIFIER SEMICOLON < 省 略 了 初始 化 等 操作 


了 


type_specifier 
: basic type_specifier < 表示 int、double 等 基本 类 型 
| array_type_specifier 
| class_type_specifier < 表示 类 名 





了 


array_type_specifier 
: basic type specifier LB RB 
| IDENTIFIER LB RB 
| array type_specifier LB RB 


了 


class_ type specifier 
: IDENTIFIER 


了 





看 了 上 面 这 段 代 码 ， 可 能 有 人 会 想 了 : 

等 等 。 刚 才 不 是 说 即使 预 读 了 Point 后 面 的 一 个 符号 也 搞 不 清楚 它 到 
底 是 变量 名 还 是 类 名 吗 ? 但 是 在 这 个 规则 中 不 是 很 明显 地 告诉 你 如 果 
只 有 一 个 IDENTIFIER 的 话 就 是 class_type_specifier 吗 ? 

















这 个 语法 规则 的 重点 在 于 引入 了 array_type_specifier 。 如 7.2.1 节 
中 所 述 ， 在 引入 类 之 前 ， 数 组 声明 语法 如 下 : 
type_specifier 


: basic type_ specifier 
| type_specifier LB RB 


了 





在 引入 了 类 之 后 ， 我 认为 与 basic _ type _specifier 一 起 处 理会 更 
好 。 


type_specifier 
: basic type_ specifier 
| IDENTIFIER < 增加 了 这 行 代码 





| type_specifier LB RB 


了 





但 是 ， 还 是 像 前 面 说 的 ， 在 预 读 了 IDENTIFIER 后 的 “[* 后 ，yacc 就 会 因 
为 不 知道 是 把 它 当 做 要 引用 数组 元 素 继续 shift 好 ， 还 是 当 

做 type_specifier 进行 reduce 好 而 发 生 错 误 。 顺 带 提 一 下 ， 引 用 数组 
元 素 的 规则 如 下 : 


primary_no_new_array 
: primary_no_new_array LB expression RB 
| IDENTIFIER LB expression RB 





了 





不 过 ， 引 入 了 array_ type_specifier 后 ， 即 使 预 读 到 了 “[” 也 不 会 进 
行 归 纳 ， 因 而 也 不 会 进行 归纳 /归纳 冲突 和 移 进 / 归 纳 冲 突 。 当 然 ， 现 在 
还 是 搞 不 清楚 到 底 是 在 array_type_specifier 中 ， 还 是 

在 primary_no_new_array 中 。 在 看 到 了 代码 清单 2-5 的 y.output 的 后 半 
部 分 中 一 并 记载 了 多 个 规则 就 能 明白 ，yacc 的 状态 可 以 跨越 多 个 规则 ， 

并 不 会 引发 问题 。 


8.4.2 ”编译 时 的 数据 结构 

函数 在 编译 时 被 保存 在 FunctionDefinition 结构 体 中 ， 然 后 被 复制 
到 DVM_Executable 中 的 DVM_Function 结构 体 。 类 保存 在 编译 时 的 数 
据 类 型 ClassDefinition 和 DVM_Executable 的 DVM_Class 中 。 


对 于 从 开头 一 直 读 到 这 里 的 读者 ， 我 想 就 没有 必要 太 过 详细 地 介绍 了 ， 
还 是 一 笔 带 过 吧 。 








首先 是 编译 时 的 数据 结构 ClassDefinition 。 


struct ClassDefinition tag { 


DVM_Boolean is abstract; 

DVM AccessModifier access modifier; 

DVM_ ClassOrInterface class or interface; 
PackageName *package_ name; 

char *name; 

ExtendsList *extends; <fix 之 前 的 临时 数据 结构 
ClassDefinition *super class; 
ExtendsList *interface list; 
MemberDeclaration *member; < 成 员 

int line number; 

struct ClassDefinition tag next; 


}; 





这 个 结构 体 中 值得 注意 的 地 方 是 ， 成 员 extends 是 一 个 在 create.c 中 被 构 
建 后 ， 又 在 fix_tree.c 中 被 抛弃 的 临时 数据 结构 。 在 Diksam 中 ， 继 承 类 和 
接口 时 ， 没 有 使 用 Java 的 extends 和 implements 风格 ， 而 是 使 用 了 
C++ 和 C# 的 冒号 ， 因 此 《一 开始 ) 无 法 区 分 类 和 接口 。 这 里 先 关 且 加 入 
一 个 extends 成 员 ， 之 后 将 在 fix_tree.c 中 分 为 super_class 和 
interface list (fix extends() 函数 ) 。 


member 保存 了 类 的 成 员 。 类 成 员 的 字段 和 方法 以 共用 体 的 形式 被 保存 
在 MemberDeclaration 结构 体 中 。 








struct MemberDeclaration tag { 

MemberKind kind; 

DVM AccessModifier access modifier; 

union { 
MethodMember method; 
FieldMember field; 

} uu; 

int line number; 

struct MemberDeclaration tag *next; 





先 看 一 下 字段 的 定义 。 





typedef struct { 


char *name; 
TypeSpecifier *type; 
int field index; 


} FieldMember; 


| 


name 和 type 表示 字段 的 名 称 和 类 型 。 


这 里 要 稍稍 介绍 一 下 field_index 。 在 DVM 中 ， 各 个 对 象 的 字段 的 数 
据 都 以 DVM_ Value 数组 的 形式 保存 。 这 里 的 field_index 就 是 这 个 数 
组 的 下 标 ， 在 fix_tree.c 中 进行 设置 。 


继承 类 的 时 候 ， 超 类 的 字段 会 由 子 类 继续 持 有 《如 图 8- 
5) 。MemberDeclaration 结构 体 的 列表 只 含有 当前 类 的 成 员 ， 并 不 包 
含 超 类 的 成 员 ， 但 field_index 却 和 超 类 的 字段 含有 的 通用 的 编号 。 


在 Diksam 中 束 是 像 这 样 ， 在 编译 时 指定 字段 索引 值 。 这 是 因为 Diksam 
中 并 没有 相当 于 Java 的 class 文 件 这 样 的 产 出 物 。 如 果 字 节 码 保存 在 文件 
中 的 话 ， 类 中 的 字段 增加 ， 索 引 值 也 可 以 在 文件 中 随 之 增加 ， 但 是 却 做 
在 Java 的 字 节 码 中 指定 的 并 不 是 字段 的 索引 值 ， 而 是 
字段 的 名 称 。 


接 下 来 是 方法 。 


typedef struct { 
DVM_Boolean is_ constructor; 
DVM_Boolean is abstract; 
DVM_Boolean is Virtual; 
DVM_Boolean is override; 











FunctionDefinition *function definition; 
int method_ index; 
} MethodMember ; 





首先 method_index 和 field_index 一 样 ， 是 一 个 包含 了 超 类 方法 的 通 
用 编写。 但 是 ， 在 实现 了 接口 方法 的 时 候 ， 这 个 方法 的 method_index 
只 在 接口 之 间 通 用 。 换 名 话说 ， 它 就 是 vtable 的 下 标 〈 如 图 8-8) 。 


另外 ， 如 代码 所 见 ，MethodMember 中 包含 了 指 

问 FunctionDefinition 的 指针 。 就 是 说 ， 对 于 Diksam 来 说 ， 方 法 也 
不 过 就 是 函数 〈 稍 有 不 同 ) ， 它 被 注册 在 FunctionDefinition 中 的 同 
时 也 会 创建 DVM_Function 。 





FunctionDefinition 中 增加 了 从 方法 能 够 退 溯 到 类 的 
ClassDefinition 的 指针 。 如 果 这 个 成 员 为 NULL 的 话 ， 就 说 明 它 不 是 
方法 而 只 是 普通 的 函数 。 

struct FunctionDefinition tag { 


ClassDefinition *class_definition; < 指 癌 类 的 指针 


.. .后 面 省 略 ... 











}; 





8.4.3 ”DVM_Executable 中 的 数据 结构 





编译 完成 后 就 要 生成 DVM_Executable 了 ， 这 里 使 用 了 DVM_Class 结构 
体 来 保存 DVM_Executable 中 的 类 。 


DVM_Class 在 DVM_Executable 中 以 下 面 这 种 可 变 长 数组 的 形式 保存 。 


struct DVM Executable tag { 
.. .前 面 省 略 ... 
int class_count; 
DVM_Class *class definition; 


..… .后 面 省 略 ... 











}; 





DVM_Class 结 构 体 的 定义 如 下 所 示 。 





typedef struct { 


DVM_Boolean is abstract; 

DVM AccessModifier access modifier; 
DVM ClassOrInterface class or interface; 
char *package_name; 

char *name; 

DVM_Boolean is implemented; 
DVM ClassIdentifier *super_ Class; 
int interface count; 
DVM ClassIdentifier *interface ; 

int field count; 
DVM_Field *field; 

int method_count; 
DVM_ Method *method; 


} DVM Class; 


Le 


上 上面 的 代码 中 出 现 了 DVM_ ClassIdentifier ， 它 是 由 包 名 和 类 名 组 成 
的 类 型 。 这 个 类 型 可 以 保存 超 类 和 【实现 了 的 ) 接口 。 


字段 和 方法 都 是 以 可 变 长 数组 的 方式 保存 的 。DVM_Class 中 保存 的 只 有 
当前 类 中 的 定义 ， 并 不 包含 超 类 的 部 分 。 


保存 字段 的 DVM_Field 的 定义 如 下 。 其 中 成 员 所 表示 的 含义 都 显 而 易 
见 。 


typedef struct { 
DVM AccessModifier access modifier; 
char *name; 


DVM_TypeSpecifier *type; 
} DVM Field; 





方法 也 是 一 样 。 


typedef struct { 
DVM AccessModifier access modifier; 
DVM_Boolean is abstract; 
DVM_Boolean is virtual; 
DVM_Boolean is override; 
char *name; 

} DVM_ Method; 











并 且 ， 方 法 “差不多 ”是 普通 的 函数 ， 只 是 在 动作 上 有 细微 的 不 同 ， 因 此 
在 DVM_Function 中 保存 了 它 是 不 是 方法 的 标识 符 〈 下 面 的 1s_method 
De 











typedef struct { 
DVM_TypeSpecifier *type; 








char *package_name; 

char *name; 

int Parameter_count ; 
DVM_LocalVariable *parameter; 

DVM_Boolean is implemented; 

DVM_Boolean is method; < 增加 了 这 个 成 员 











.后面 省 略 .. . 





} DVM_Function; 


方法 的 函数 名 以 类 名 # 方 法 名 的 方式 保存 在 DVM_Function 的 name 成 员 
中 。 例 如 Point 类 的 print() 方法 ， 在 DVM_Executable 的 时 候 也 可 以 
看 作 是 名 称 为 Point#print 、is_method 为 true 的 普通 函数 。 当 然 ， 
解析 器 是 不 允许 函数 名 中 包含 # 的 ， 因 此 ， 使 用 者 即使 自己 写 了 名 

为 Point#print() 的 函数 ， 也 不 能 在 目 己 的 程序 中 通过 
Point#print() 的 方式 调用 。 

8.4.4 与 类 有 关 的 指令 

随 着 引入 了 类 的 概念 ，DVM 中 也 增加 了 相关 的 指令 ， 如 表 8-2 所 示 。 下 
面 的 object 型 为 字符 串 、 数 组 、 类 对 象 的 总 称 〈 在 表 7-1 中 为 字符 串 和 
数组 的 总 称 ， 这 次 增加 了 类 的 对 象 ) 。 


表 8-2 随 着 引入 类 而 增加 的 指令 
操作 
指令 数 类 含义 栈 动作 
型 
RE 根据 操作 数 《〈 即 索引 值 ) 取得 栈 顶 对 象 的 属性 
根据 操作 数 《〈 即 索引 值 ) 取得 栈 顶 对 象 的 属性 
push_field double (double 型 ) 值 ， 并 将 其 入 栈 。 
根据 操作 数 《〈 即 索引 值 ) 取得 栈 顶 对 象 的 属 | ee 
(object 型 ) 值 ， 并 将 其 入 栈 。 , 3 
+ | 用 栈 项 的 值 (int ) 赋值 给 栈 顶 的 对 象 中 与 操作 ee 
数 〈 即 索引 值 ) 对 应 的 属性 2 
顶 的 值 〈double ) 赋值 给 栈 顶 的 对 象 中 与 操 
ee So E 数 〈 即 索引 值 》 对 应 的 属性 





























push_field object 




















pop_field int 






































用 栈 项 的 值 (object1 ) 给 栈 顶 的 对 象 中 与 操作 | [object1 
数 (object2 ) 对 应 的 属性 赋值 object2]3[] 


根据 操作 数 〈“ 即 索引 值 〉 取 得 栈 顶 对 象 的 方法 的 | [object]>[object 
索引 值 ， 并 将 其 入 栈 〈 请 参考 8.4.5 节 ) 。 int] 


创建 与 操作 数 〈 即 索引 值 》 对 应 的 类 的 实例 ， 并 





pop_field object 








push_method 









































将 栈 中 的 对 象 引 用 的 vtable 替换 为 操作 数 指定 的 
和 接 同 友 请 佐 考 399 到 地 二 


3 
他 
| : 


down_cast 


duplicate offset 


instanceof 


SMS | 下 





检查 栈 上 的 对 象 引 用 是 否 能 向 下 转型 ， 并 在 此 基 
出 上 将 它 的 vtable 蔡 换 为 操作 数 指定 的 接口 的 





从 栈 顶 取得 操作 数 指定 个 数 的 元 素 ， 将 
入 栈 


项 的 对 象 引用 的 vtable 替换 成 其 父 类 的 。 




















e (请 参考 8.4.9 节 ) 。 



































o 














short | 将 它 的 引用 入 栈 。 此 时 并 不 会 调用 构造 方法 ， []*[obpject] 
此 接 下 来 会 另外 创建 构造 方法 的 调用 代码 。 


[obJject]?>[object] 
[object]?>[object] 


F | [Istobject] 


[object]=[object] 


[object]=[boolean] 


访问 字段 的 指令 ， 把 字段 的 索引 值 作为 操作 数 传递 就 可 以 了 。 这 里 的 字 
段 值 指 的 是 保存 在 FieldMember 结构 体 中 的 field_index 。 


除 此 之 外 的 指令 将 在 后 面 的 章节 中 介绍 。 








补充 知识 ”方法 调用 、 括 号 和 方法 指针 


在 Diksam 中 调用 方法 或 函数 的 时 候 ， 会 像 p.get_x() 这 样 使 用 括号 。 
即使 方法 中 一 个 参数 都 没有 ， 括 号 也 不 能 省 略 。 


但 是 ， 根 据 语 言 的 不 同 ， 有 的 括号 也 是 可 以 省 略 的 。 例 如 在 Eiffel 的 语 
言 中 一 个 参数 都 没有 的 时 候 就 可 以 省 略 掉 括号 "。 这 种 做 法 的 优点 只 是 











单纯 地 改善 了 外 观 问题 ， 节 约 了 录入 量 。 
* 在 Ruby 中 即使 有 参数 也 可 以 省 略 括号 。 





-并 


public double get x() { 
return x; 


} 


年 Java 和 C++ 中 ， 为 了 实现 封装 ， 普 过 的 做 法 是 将 字段 设置 为 private 
然后 再 像 下 面 这 样 编写 访问 器 (accessor) 。 





这 里 将 来 可 能 会 发 生变 化 ， 例 如 也 许 不 会 把 x 单单 作为 字段 保存 ， 而 是 
将 计算 后 的 结果 返回 去 。 考 虑 到 这 种 情况 ， 创 建 访问 各 的 方法 比 起 把 字 
0 公开 出 去 要 好 。 但 是 ， 纺 写 访问 器 是 一 件 非常 麻烦 的 


在 这 点 上 Eiffel 的 做 法 是 ， 最 初 的 字段 是 公开 的 ， 如 果 中 途 想 要 修改 为 

在 计算 后 再 返回 结果 的 话 ， 此 时 可 以 定义 一 个 名 字 为 x 的 方法 蔡 换 掉 最 
初 公开 的 字段 。 不 论 是 字段 还 是 方法 ， 从 使 用 者 的 角度 来 看 都 是 p.x ， 

这 种 做 法 达到 了 在 不 影响 使 用 者 的 前 提 下 将 字段 葵 换 为 方法 的 目的 。 


说 起 人 殖 换 x ， 在 Eiffel 中 默认 是 不 能 使 用 p.x 为 其 赋值 (使 用 “. ?对 字段 
进行 引用 时 不 能 作为 左边 值 ) 。 因 此 ， 每 个 字段 的 访问 器 都 是 在 一 开始 
就 强制 创建 的 。 我 很 同意 这 种 做 法 ， 从 外 部 改变 字段 的 值 是 件 大 事 ， 因 
此 必须 编写 方法 来 实现 ! 

1 意思 是 让 编程 人 员 知道 自己 开放 了 哪些 字段 是 可 以 从 外 部 赋值 的 。 一 一 译 者 注 


我 认为 这 是 一 个 不 错 的 主意 ， 但 在 Diksam 中 并 没有 使 用 。 原 因 是 ， 采 用 
了 这 种 方式 的 话 方 法 本 里 就 不 能 再 作为 值 被 处 理 了 。 















































// set_on_click 方 法 中 传递 了 对 象 o 的 方法 作为 参数 。 


button.set on click(o.method); 





上 面 的 代码 注册 了 一 个 事件 ， 在 按 下 GUI 的 按钮 时 相当 于 调用 了 
o.method() 。 设 想 一 下 ， 如 果 把 方法 指针 用 作 事 件 句柄 或 者 回调 方法 
的 话 ， 会 发 现 调用 o.method 方法 是 件 困难 的 事情 (因为 要 

向 set_on_click 传递 o.method() 的 执行 结果 ) 。 


将 方法 目 身 作为 值 处 理 的 功能 ， 将 在 9.5.4 节 中 实现 。 
8.4.5 ”方法 调用 


Diksam 中 push_method 指令 用 于 在 考虑 了 多 态 的 情况 下 ， 决 定 被 调用 
的 函数 。 


push_method 与 push_function 把 函数 入 栈 的 功能 相似 ， 是 把 方法 入 
栈 。 实 际 上 被 推 入 栈 中 的 也 和 函数 一 样 ， 是 DVM_VirtualMachine 中 





Function 类 型 的 对 应 表 的 索引 值 。 作 为 操作 数 的 索引 值 ， 跟 字段 的 情 
况 和 差不多 ， 是 MethodMember 结构 体 的 method_index 。push_method 
人 ， 在 考虑 到 多 态 的 情况 下 选择 适当 


push_method 在 选择 了 适当 的 函数 之 后 就 要 进行 调用 了 ， 这 个 动作 与 
调用 普通 的 函数 基本 相同 ， 使 用 的 指令 也 都 是 invoke 。 


Diksam 的 函数 调用 已 经 在 6.4.3 节 中 介绍 过 了 。 


但 是 ， 在 调用 方法 的 时 候 ， 必 须要 将 目标 对 象 传递 给 方法 。 在 和 被 调用 的 
方法 中 这 个 对 象 将 被 作为 this 进行 引用 。 


在 Diksam 中 this 作为 最 后 一 个 参数 传递 给 方法 。 如 图 8-9 所 示 。 











函数 调用 者 在 运算 
时 使 用 的 栈 






SS this 作为 最 后 一 


参数 被 传递 给 方 ; 法 


因为 增加 了 this， 局 部 
变量 中 以 base 为 基准 


的 偏 移 量 也 增加 了 1 


增长 方向 


图 8-9 方法 调用 


在 Diksam 中 ， 参 数 按照 从 前 往 后 的 顺序 入 栈 ， 此 时 this 是 最 后 一 个 参 
0 因此 ，push_method 的 时 候 可 以 引用 this 选择 
7 











如 图 8-9 中 所 不 。 局 部 变量 的 偏 移 量 也 因为 增加 了 this 而 增加 了 
个 调整 在 加 载 时 进行 (请 参考 load.c 的 convert_code() 函数 ) 。 


在 new 时 调用 的 构造 方法 多 少 会 有 些 不 同 ， 操 作 步 又 如 下 : 


1. 首先 ， 创 建 对 象 并 将 其 引用 入 栈 。 

2. 将 构造 方法 的 参数 按照 从 前 到 后 的 顺序 入 栈 。 

3. 使 用 duplicate_ index 指令 将 1. 中 创建 的 对 象 引用 复制 到 栈 的 顶 
端 。 

4. 使 用 invoke 指令 调用 方法 。 

5. 最 后 ， 在 栈 中 只 留 下 了 1. 中 入 栈 的 对 象 引 用 。 


8.4.6 super 


Diksam 和 Java 一 样 ， 有 super 关键 字 。 使 用 它 可 以 调用 到 this 的 超 类 
7 


在 Diksam 中 super 的 实现 非常 简单 ， 只 将 this 指向 的 DVM_ObjectRef 
的 vtable 蔡 换 成 超 类 即 可 。 


但 是 ， 他 变量 中 的 使 用 方法 考虑 在 内 (如 “p 
= super;”) 。 因 此 ， 除 了 super .函数 名 () 以 外 的 形式 ， 其 他 在 编译 
ee 


并 且 ， 在 Diksam 中 超 类 的 构造 方法 并 不 能 通过 super() 的 形式 调用 ， 


而 是 必须 要 使 用 super . initialize( ) 的 形式 。 在 Diksam 中 ， 不 显 式 
地 指定 构造 方法 名 称 的 话 ， 就 不 能 知道 调用 的 是 哪个 构造 方法 。 


8.4.7 类 的 链接 

类 与 函数 相同 ， 也 会 引用 多 个 文件 ， 因 此 必须 要 进行 链接 。 

这 里 的 结构 和 函数 的 基本 相同 。 下 面 进 行 简 单 的 介绍 
在 8.4.3 节 中 提 到 过 ，DVM_Executable 中 保存 着 DVM_Class 的 数 
组 。new 指令 以 操作 数 的 形式 保存 着 类 有 的 索引 值 ， 这 个 索引 值 就 


是 DVM_Executable 中 DVM_Class 的 下 标 。 因 此 ， 即 使 没有 在 当前 代码 
中 定义 ， 只 是 单纯 被 使 用 到 的 类 也 会 被 注册 到 DVM_Class 数组 中 ， 而 且 

















这 样 的 类 ， 它 的 is_implemented 为 false (请 参考 8.4.3 节 ) 。 


将 DVM_Executable 加 载 到 DVM 的 时 候 ，push_function 的 操作 数 将 
会 替换 为 DVM 内 的 下 标 〈 请 参考 6.4.1 节 ) 。 类 的 话 ，new 的 操作 数 将 
会 被 蔡 换 为 DVM 内 的 下 标 (load.c 的 convert code() 函数 ) 。 


这 里 说 的 “DVM 内 的 下 标 ” 是 指 DVM_VirtualMachine 中 ExecClass 数 
组 的 下 标 。ExecClass 创建 于 加 载 包含 类 的 源 文 件 的 时 候 ， 同 时 也 会 扩 
展 ExecClass 数组 (load.c 的 add_classed() 函数 ) 。 


is_implemented 为 false 的 DVM_Class 会 在 此 时 拣 入 方法 的 实现 。 
8.4.8 ”实现 数组 和 字符 串 的 方法 

如 同 在 8.2.7 节 中 写 到 的 ，Diksam 的 数组 和 字符 串 有 不 少 内 建 方法 。 

不 论 是 数组 还 是 字符 串 在 创建 对 象 的 时 候 ， 都 在 引用 对 象 的 
DVM_ObjectRef 中 以 保存 硬 编码 vtable 的 方式 实现 。 在 这 个 vtable 中 登 
录 了 数组 或 者 字符 串 方 法 的 〈 原 生 方法 ) 实现 。 

这 样 就 可 以 在 运行 时 调用 方法 了 ， 但 在 编译 时 必须 要 进行 参数 检查 。 最 
麻烦 的 是 ， 例 如 确定 数组 的 ijnsert() 方法 中 第 2 个 参数 (要 插入 的 数组 


元 素 ) 的 类 型 。int 数组 第 二 个 参数 必须 是 int ，Point 类 的 数组 则 必 
须 是 Point 。 











认真 考虑 这 个 问题 的 话 ， 就 会 想到 Java 的 泛 型 (Generics) 和 C++ 的 模板 
这 些 功能 。 但 是 ， 现 在 没有 必要 只 是 为 了 数组 使 用 这 么 复杂 的 处 理 方 
式 ， 用 下 面 的 方式 也 可 以 解决 〈 保 存 一 个 包含 了 内 建 方法 参数 的 类 型 信 
息 的 数组 ) (fix tree.c) 。 


/* 参数 的 类 型 和 数量 保存 在 static 的 数组 中 

* DVM_BASE_TYPE 表 示 数 组 元 素 的 类 型 。 

2 

static DVM_BasicType st array_size arg[|] = 











3 
static DVM BasicType st_array_resize arg[|] = {DVM_INT_TYPE}; 
static DVM BasicType st array_ insert arg[] {DVM_INT_TYPE, DVM BASE TYPE}; 
static DVM BasicType st array_remove arg[|] {DVM_INT_TYPE}; 





虽然 我 觉得 这 么 做 不 太 优 雅 ， 但 还 是 在 DVM_BasicType 中 加 入 了 奇怪 
的 元 素 (DVM_BASE _ TYPE ) 。 


8.4.9 ”类 型 检查 和 问 下 转型 


类 的 类 型 检查 〈instanceof ) 和 问 下 转型 其 实 是 两 个 相似 的 功能 。 问 
下 转型 在 执行 时 也 会 进行 和 instanceof 相同 的 类 型 检查 。 


因此 ，instanceof 和 癌 下 转型 可 以 看 作 是 编译 时 进行 的 检查 。 首 先 ， 
Diksam 中 存在 着 类 和 接口 ， 在 A instanceof B 的 时 候 ， 会 出 现 以 下 几 
种 情况 。 









































接口 | 在 A 的 子孙 中 只 要 有 实现 了 B 的 ， 通 常会 返回 真 。 
会 返回 


接口 | 对象 实现 了 A 和 B 两 个 接口 的 时 候 ， 通 常会 返回 真 。 











也 束 是 说 ，instanceof 的 右边 指定 了 类 的 时 候 ， 编 译 时 会 因为 绝对 不 
会 为 真 的 instanceof 而 导致 错误 。 向 下 转型 时 也 是 一 样 ， 如 果 类 之 间 
没有 继承 关系 的 话 也 不 可 能 进行 向 下 转型 。 

更 为 重要 的 是 ， 在 Diksam 中 ， 绝 对 为 真 的 Instanceof (同类 之 间 的 和 
与 超 类 进行 的 instanceof ) 、 问 超 类 的 转型 也 会 导致 编译 错误 。 我 认 
为 ， 没 用 的 代码 最 后 会 导致 bug， 在 编译 时 应 该 阻止 这 种 情况 发 生 。 
运行 时 的 检查 ， 将 在 ExecClass 结构 体 中 通 历 所 有 超 类 和 接口 〈 因 此 ， 
速度 不 是 很 快 ) 。 


向 下 转型 的 时 候 ， 在 进行 了 和 :instanceof 同样 的 检查 后 ， 如 果 转 型 目 
标 是 类 ， 束 将 引用 中 保存 着 的 vtable 蔡 换 为 目标 类 的 vtable。 如 果 转 型 日 
标 是 接口 的 话 ， 就 用 目标 接口 的 vtable 蔡 换 。 


补充 知识 “对 象 终结 器 〈finalizer) 和 析 构 函数 
(Cdestructor ) 


在 Java、C++、C# 等 语言 中 ， 类 对 象 销毁 时 可 以 通过 用 户 程序 得 知 。 具 











体 来 说 ， 在 对 象 销毁 时 ，Java 会 使 用 析 构 器 ，C++ 和 C# 则 会 调用 航 称 为 
析 构 函数 的 方法 。 


但 是 ，Diksam 中 没有 这 个 功能 。 姑 且 不 论 必 须 完全 由 编程 人 员 控 制 对 象 
寿命 的 C++， 和 可 以 预测 对 象 销 毁 时 机 的 Python〈 使 用 基本 的 引用 计数 

需 类 型 GC， 在 不 创建 循环 引用 的 前 提 下 ) ，Diksam 这 样 的 语言 中 即使 

创建 了 对 象 终结 器 ”也 没有 什么 作用 。 


* 这 里 采用 了 Java 的 说 法 。 


对 象 终结 器 的 用 途 ， 比 如 说 用 来 关闭 在 C 中 fopen() 返回 文件 的 指针 。 
因为 能 够 打开 的 文件 数 〈 译 注 : 文件 句柄 ) 在 进程 中 是 有 上 限 的 ， 所 以 
使 用 fopen() 打开 的 文件 在 用 完 后 应 该 立即 关闭 。 但 是 这 个 处 理 如 果 要 
交 给 对 象 终结 器 的 话 ， 它 也 不 知道 要 何 时 进行 哪些 操作 《特别 是 Java 中 
连 有 没有 进行 动作 都 不 知道 ) 。 说 不 定 在 处 理 开始 前 ， 所 有 的 文件 句柄 
就 已 经 用 光 了 。 上 所 以 说 这 种 做 法 不 保险 。 


如 果 像 上 面 说 的 那样 ， 我 想 还 是 不 要 定义 对 象 终结 右 。 如 有 果 能 够 简单 地 
实现 对 象 终结 器 的 话 ， 也 许 效果 会 更 好 。 但 是 ， 实 际 上 想 要 优雅 地 实现 
对 象 终结 强 并 非 易 事 。 


也 许 有 人 会 想 ,“ 嗯 ? 释放 对 象 空间 之 前 ， 不 是 只 会 调用 finalize() 方 
法 吗 ? ”如果 在 对 象 终结 器 中 把 this 赋值 给 了 全 局 变量 或 者 其 他 东西 的 
话 怎么 办 ? 


垃圾 回收 器 会 根据 “不 能 被 奶 溯 到 的 对 象 " 这 一 原则 来 判断 对 象 是 否 不 被 
需要 。 但 是 ， 在 对 象 终结 器 中 将 this 赋值 给 了 全 局 变量 的 话 ， 此 时 这 
个 对 象 就 可 以 从 全 局 变量 中 被 奶 溯 到 ， 以 全 于 不 能 被 释放 了 。 


Java 的 GC 也 不 得 不 面 对 这 个 问题 。 目 前 已 知 的 是 如 果 使 用 了 对 象 ， 终 结 
如 会 使 GC 的 效率 大 幅 下 降 。 


另外 ，crowbar 和 Diksam (book_ver.0.4) 中 ， 对 于 指向 原生 指针 类 型 的 

对 象 来 说 ， 可 以 使 用 原生 函数 实现 对 象 终结 器 。 编 写 原 生 函 数 多 少 会 包 

含 一 些 危 险 的 处 理 ， 因 此 不 得 不 考虑 到 ， 如 果 对 在 原生 函数 中 悄悄 地 把 

0 然后 又 被 其 他 程序 引用 的 话 就 会 导致 月 种， 那么 只 能 后 果 
A o 
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9.1 为 crowbar 引 入 对 象 和 闭 包 
在 第 8 章 中 为 Diksam 引 入 了 类 ， 但 是 目前 的 crowbar 还 不 文 持 面 癌 对 象 功 


全 已 
有 Co 


而 在 当今 的 编程 语言 中 ， 大 有 如 果 不 支 持 面 同 对 象 就 不 会 被 认可 的 染 
势 ， 因 此 也 要 让 crowbar 支 持 面 向 对 象 。 


但 是 ，crowbar 的 面 癌 对 象 与 Diksam、C++、Java、C# 等 相 比 会 有 一 些 不 





9.1.1 crowbar 的 对 象 


像 前 面 提 到 的 ，crowbar 中 没有 类 的 概念 。 因 此 ， 创 建 对 象 的 时 候 也 不 
需要 指定 类 和 使 用 new 指令 ， 只 是 单纯 地 调用 原生 函数 new_object() 
BH:s 


oO = new object(); 


crowbar 中 的 对 象 与 C 对 象 的 结构 体 相 同 ， 也 可 以 保存 成 员 。 但 是 ， 由 
站 ， 因 此 成 员 将 在 运行 时 以 赋值 的 方式 增 
。 








p = new object(); 
p.xXx = 10; 
p.y = 20; 


print("p..(" + p.Xx+", "+ Pp.y+ ")\n"); 








肯定 有 人 会 说 (我 必须 承认 我 也 是 其 中 一 员 〉 :“ 没 有 类 型 声明 感觉 真 
是 别扭 。” 但 起 码 这 个 方式 实现 了 类 似 C 的 结构 体 的 功能 。 


并 且 ， 与 Diksam、Java 一 样 ， 这 个 对 象 也 是 引用 类 型 的 ， 使 
A 0 因此 ， 下 面 的 代码 将 输 
20 。 


ol1 = new_object() 
0o1.hoge = 16; 

02 = 01; 

02.hoge = 208; 


print(o1.hoge); 





上 面 这 段 代 码 的 内 存 映 像 如 图 9-1 所 示 。 


[时 一 
2 加 一 


图 9-1 ” crowbar 的 对 象 是 引用 类 型 
9.1.2 对象 实 现 


首先 ， 关 于 “对 象 ” 这 个 词 无 论 是 在 crowbar 中 还 是 在 Diksam 中 ， 都 是 
“在 堆 中 被 创建 的 ”字符 串 、 数 组 、 类 的 “对 象 ?。 像 crowbar 的 
CRB_0bject 、Diksam 的 DVM_0bject 结构 体 ， 这 些 都 是 通过 共用 体 保 
存 的 “在 堆 中 被 创建 的 对 象 ”。 


在 Diksam 中 ， 堆 中 类 的 实例 的 对 象 被 称 为 “类 对 象 ” 或 者 “类 的 实例 ”。 但 
是 ，crowbar 中 并 没有 类 的 概念 。 


对 于 使 用 者 来 说 ， 应 该 把 数组 叫 作 数组 ， 把 字符 串 叫 作 字符 串 才 对 吧 。 

因此 ，new_object() 函数 返回 的 也 应 该 叫 作 “对 象 ”。 但 是 ， 从 crowbar 
的 实现 上 来 看 ， 由 于 已 经 引入 了 叫 作 CRB_Object 的 结构 体 ， 因 此 不 得 
不 给 new_object() 返回 的 东西 起 一 个 其 他 的 名 字 。 


这 里 把 这 个 东西 叫 作 assoc。assoc 是 关联 数组 (associative array) 的 简 
称 。 


之 所 以 被 称 为 关联 数组 (最 近 不 知道 为 什么 有 很 多 语言 叫 它 “ 哈 希 ”)， 
是 因为 它 是 可 以 以 字符 串 〈 等 ) 为 键 从 中 取出 值 来 的 数组 。 正 是 由 于 可 
以 以 字符 串 为 键 取 值 这 点 ，crowbar 的 对 象 最 终 使 用 了 关联 数组 的 方式 ， 




















# 在 Perl 的 ver.4 中 还 是 叫 作 * 关 联 数组 ”， 但 从 ver.5 开 始 就 叫 作 “ 哈 希 "了 。 我 认为 哈 希 只 不 过 是 一 
个 实现 方式 ， 因 此 还 是 “关联 数组 ”的 名 字 更 为 贴切 。 




















*## 现 在 作为 键 的 字符 串 还 不 能 使 用 变量 ， 因 此 还 不 能 作为 关联 数组 投入 使 用 。 顺 便 提 一 下 ， 
JavaScript 中 可 以 使 用 [] 访问 数组 元 素 ， 因 此 可 以 作为 关联 数组 使 用 。 

















assoc 的 结构 体 定义 如 下 (crowbar.h)。 


typedef struct { 

char *name; 

CRB_Value value; 

CRB_Boolean is_final; < 现 阶段 不 需要 在 意 
} AssocMember ; 








struct CRB Assoc tag { 
int member_count; 
AssocMember *member; 


}; 





assoc 的 成 员 是 名 称 和 值 的 组 合 ， 因 此 assoc 中 只 保存 了 AssocMember 的 
可 变 长 数组 。AssocMember 中 的 is_final 是 个 谜 一 样 的 成 员 ， 因 为 它 
是 一 个 不 能 赋值 的 局 部 变量 ， 所 以 现 阶段 不 需要 在 意 它 。 


在 现在 的 实现 中 ， 每 次 增加 成 员 都 会 使 用 realloc() 来 扩展 可 变 长 数 
组 ， 并 且 以 线性 的 方式 搜索 。 当 然 它 的 速度 不 快 ， 这 时 候 只 要 拿 出 富翁 
式 编程 的 免 死 金牌 来 就 好 了 。 


因为 要 引用 assoc， 所 以 要 修改 CRB_0ObJject 。 


typedef enum { 
ARRAY_OBJECT = 1， 
STRING OBJECT, 
ASSOC_ OBJECT, < 增加 了 这 行 代码 
SCOPE_CHAIN OBJECT, < 将 在 后 面 说 明 
NATIVE_POINTER OBJECT, 
OBJECT_TYPE_COUNT_PLUS 1 

} ObjectType; 




















struct CRB Object tag { 
ObjectType type; 

















unsigned int marked:1; 

union { 
CRB_Array array; 
CRB_String string; 
CRB_Assoc assoc; < 增加 了 这 行 代码 
ScopeChain scope_chain; < 将 在 后 面 说 明 
NativePointenr native pointer; 

} uy; 


struct CRB Object tag *prev; 
struct CRB Object tag *next; 
}; 


Cs 


与 此 同时 还 增加 了 ScopeChain 和 NativePointer 这 两 个 怪 东 西 ， 还 是 
留 在 后 面 介绍 吧 。 





9.1.3” 闭 包 


对 于 对 象 来 说 不 能 够 只 有 数据 成 员 ， 还 得 有 方法 吧 ? 我 好 像 听 见 有 人 问 
我 :“ 方 法 怎么 着 了 ? "但 是 ， 我 还 是 要 把 这 些 急 脾气 的 人 放 在 一 边 ， 先 
讨论 一 下 别 的 话题 。 


在 crowbar 中 可 以 使 用 闭 包 (closure) 功能 。 所 谓 闭 包 ， 就 是 可 以 在 表 
达 式 中 定义 函数 。 








# 创建 闭 包 
c = Closure(a) { 
print("a.." + a); 


# 调用 闭 包 
c(10); 





closure 是 创建 闭 包 的 关键 字 。 通 过 在 后 面 的 括号 内 定义 形式 参数 、 在 
程序 块 中 编写 代码 来 创建 闭 包 。 上 面 的 代码 中 把 创建 的 闭 包 赋值 给 了 变 
量 c 。 

利用 代码 c(16) 可 以 调用 闭 包 。 因 此 ， 这 段 代 码 会 输出 a. .16 。 


C 语 言 的 程序 员 看 了 这 个 可 能 会 想 , “什么 嘛 ! 这 不 就 是 函数 指针 
吗 ? ”( 当 然 ， 闭 包 可 以 在 表达 式 中 任意 编写 ， 比 函数 指针 容易 上 

。 闭 包 确 实 有 与 函数 指针 相似 的 一 面 ， 实 际 上 使 用 方法 也 是 一 样 
人 


但 是 ， 决 定性 的 区 别 在 于 ， 闭 包 可 以 引用 到 闭 包 声明 所 在 位 置 的 局 部 变 


里 。 











举 一 个 关于 foreach 的 例子 。 在 crowbar 中 循环 数组 的 全 部 元 素 时 需要 
编写 如 下 代码 : 





for (i = 6;j i < array.size(); i++) { 


# 处 理 


} 





这 种 编码 方式 依赖 于 数组 概念 的 实现 。 如 果 此 时 改变 设计 思路 ， 不 用 数 
组 而 改 用 链表 了 ， 那 么 与 之 相关 的 所 有 地 方 都 要 进行 修改 。 这 是 一 件 很 
烦人 的 事 ， 因 此 在 C# 中 出 现 了 一 个 叫 作 foreach 的 语法 。 


foreach (Object o in hogeCollection) 














// 处 理 








} 





Java 从 J2SE5.0 开 始 也 增加 了 同样 的 语法 。 


有 了 这 个 语法 确实 方便 了 不 少 ， 虽 说 方便 了 但 是 还 是 要 考虑 如 何 把 它 调 
整 为 语法 规则 。 


但 是 ， 在 可 以 使 用 闭 包 的 语言 中 ， 是 可 以 把 代码 写成 下 面 这 样 的 ”。 


* 但 是 ， 在 crowbar 的 标准 中 ， 并 不 是 引入 foreach 函数 ， 而 是 引入 foreach 语法 。 














foreach(hoge _ collection, closure(o)t{ 


}); 








这 里 的 foreach 并 不 是 关键 字 ， 而 是 单纯 程序 库 的 函数 。 第 1 个 参数 是 集 
合 对 象 ， 第 2 个 参数 可 以 接收 闭 包 。foreach 函数 将 第 1 个 参数 〈 集 合 对 
象 ) 中 的 元 素 依 次 取出 ， 并 以 此 为 参数 调用 第 2 个 参数 〈 闭 包 ) 。 


如 果 只 是 满足 调用 foreach 函数 时 的 这 个 功能 的 话 ， 那 么 C 的 函数 指针 
也 是 可 以 实现 的 。 但 是 ， 在 通过 这 种 方式 使 用 闭 包 的 时 候 ， 如 果 可 以 从 
循环 的 内 部 引用 外 部 的 变量 的 话 ， 就 是 一 件 不 寻常 的 事情 了 。 





fp = fopen("hoge.txt", "w"); 
foreach(hoge_ collection, closure(o) { 














fputs(o.name，fp); # 引用 循环 外 部 的 变量 fp 





}); 





闭 包 使 这 种 调用 方式 成 为 可 能 。 这 就 是 闭 包 与 C 语 言 的 函数 指针 之 间 决 
定性 的 不 同 。 





9.1.4 方法 
对 象 和 闭 包 组 合 起 来 ， 束 变 成 了 下 面 这 段 代 码 〈 代 码 清单 9-1) 。 


代码 清单 9-1 Point.crb (之 一 ) 
# 创建 “点 ”的 函数 (构件 方法 ) 


function create point(x, y) { 
this = new object(); 
this.x = x; 
this.y = y; 

















# 定义 输出 坐标 的 方法 print() 
this.print = closure() { 
print("(" + this.x + ", "+ this.y + ")\n"); 


ONTOUWUPUWUDOP 








}; 

# 定义 移动 坐标 的 方法 move() 

this.move = closure(x vec, y vec) { 
this.x = this.x + x_vec; 
this.y = this.y + y_vec; 

}; 


return this; 





建 对 象 
create point(106,， 20); 





调用 move( ) 方 法 
.move(5, 3); 





调用 print() 方 法 
.print(); 





由 于 crowbar 中 没有 专门 的 “方法 ”功能 ， 因 此 通过 上 面 的 方式 让 对 象 的 成 
员 持 有 闭 包 ， 也 就 实现 了 与 Diksam、Java、C++ 等 语言 类 似 的 方法 功 


已 
月 上 。 


代码 清单 9-1 的 第 3 行 出 现 的 this 也 不 是 关键 字 ， 其 实 只 是 取 什 么 名 字 
都 可 以 的 局 部 变量 ， 只 不 过 使 用 this 的 话 ， 对 于 习惯 了 C++ 或 Java 的 人 
来 说 比较 容易 理解 。 重 点 在 于 ， 从 闭 包 内 部 可 以 访问 到 外 部 的 局 部 变 
量 ， 因 此 在 print() 和 move() 的 内 部 可 以 引用 到 this。 


如 果 想 要 继承 或 者 多 态 的 话 ， 只 雷 要 在 调用 create_point() 的 基础 上 
增加 新 的 方法 履 盖 原 有 的 方法 束 可 以 了 。 
代码 清单 9-2 Point.crb ( 子 类 ) 

# 生成 2” 子 类 “ 


function create extended point(x, y) { 
this = create point(x, y); 











# 重 写 print() 
this.print = closure() { 


print("**override** (" + this.x + ", " + this.y + ")\n"); 


了 


return this; 





另外 ， 现 在 的 create_point() 方法 外 面 如 果 书 写 代 码 p.x 的 话 是 可 以 
引用 到 x 的 。 也 就 是 说 ，p 的 成 员 x 、y 的 默认 是 public 的 。 如 果实 在 
是 不 喜欢 这 种 方式 ， 也 可 以 不 在 this 中 保存 x 和 y ， 而 是 使 用 代码 清单 
9-3 的 方式 增加 访问 器 就 可 以 了 。 


代码 清单 9-3 Point.crb (封装 版 ) 











1: # 创建 “点 ”的 函数 (构件 方法 ) 

2: function create point(x, y) { 

3: this = new object(); 

4: 

5: this.print = closure() { 

6: print("(" +XxX+", "+y+")\n"); # < 即使 不 是 this.x 也 可 以 引 
7: 5 

8 : this.move = closure(x vec，y_vec) { 
9 : X=X+XVvec; 

10: y=Yy + Yy_vec; 

11: }; 

12: # 增加 访问 器 (省 略 了 get_y()) 
































13: this.get x = closure() { 


14 : return x; 


了 
16 : return this; 








在 create_point() 内 创建 的 团 包 拥 有 可 以 引用 参数 (或 者 说 局 部 变 
量 ) x 和 y 的 特性 。 





上 面 这 些 就 是 基于 crowbar 的 面向 对 象 。 

9.1.5” 闭 包 的 实现 

看 了 前 一 节 的 代码 ， 可 能 有 人 会 有 下 面 这 样 的 疑问 。 

如 果 this 、x 、y 都 是 局 部 变量 的 话 ， 在 函数 create_point() 退出 的 
时 候 不 是 就 该 被 释放 了 吗 ? 就 算是 在 闭 包 中 可 以 引用 到 外 部 的 局 部 变 
量 ， 但 如 果 被 释放 了 的 话 不 是 束 不 能 引用 了 吗 ? 

真是 一 个 不 错 的 问题 ， 但 上 面 的 担心 并 不 会 发 生 ， 这 才 是 闭 包 有 趣 的 地 
本 




















在 C 语 言 中 ， 进 入 函数 的 时 候 会 在 栈 上 创建 局 部 变量 的 内 存 空间 ， 函 数 
退出 的 时 候 会 被 释放 。 此 时 ， 被 创建 /释放 的 单 供 内 存 被 称 为 帧 


(frame) 。 


在 crowbar 中 ， 到 book_ver.0.3 为 止 ， 本 质 上 都 是 相同 的 〈 只 不 过 帧 不 是 
在 栈 上 被 创建 的 而 是 在 堆 上 ) 。 然 而 在 上 述 示 例 中 的 print() 和 
move() 方法 ， 在 create_point() 结束 后 才 被 调用 ， 而 且 在 方法 里 面 
还 能 引用 到 this 。 如 果 使 用 “函数 退出 时 帧 也 会 被 释放 ”这 个 老 规则 ， 
是 不 能 满足 这 种 变量 访问 方式 的 。 

在 现在 的 crowbar 中 ， 创 建 帧 的 时 机 和 往常 一 样 ， 但 是 释放 的 时 机 却 不 
是 “函数 退出 的 时 候 ”， 而 是 “ 帧 不 再 被 引用 的 时 候 >”。 也 就 是 说 ， 帧 的 释 
放 是 通过 GC 进 行 的 。 

但 是 ， 请 思考 一 下 实际 的 实现 方式 。 


首先 ， 怖 是 茶 一 次 函数 调用 时 保存 局 部 变量 的 地 方 ， 对 于 局 部 变量 

















〈 群 ) 来 说 ， 由 于 存在 着 多 个 变量 名 和 值 的 组 合 ， 因 此 使 用 assoc 再 适合 
不 过 了 。 也 就 是 说 ， 在 调用 函数 的 时 候 创 建 一 个 assoc， 并 将 局 部 变量 保 
存在 其 中 就 可 以 了 。 


接 下 来 束 是 闭 包 了 。 像 之 前 所 说 的 ， 财 包 具 有 如 下 特性 。 


1. 财 包 是 一 个 值 ， 可 以 像 C 的 函数 指针 一 样 赋值 给 变量 ， 并 且 在 之 后 
可 以 通过 函数 调用 的 方式 投入 使 用 。 
2. 可 以 引用 创建 其 位 置 的 局 部 变量 。 


首先 ， 先 来 介绍 一 下 第 一 个 特征 。 


由 于 闭 包 是 一 个 值 ， 必 然 可 以 保存 在 CRB_Value 中 ， 因 此 ， 
在 CRB_Value 的 共用 体 定 义 中 需要 增加 CRB_Closure (代码 清单 9-4) 


代码 清单 9-4 CRB_Closure 结 构 体 


typedef enum { 
CRB_BOOLEAN VALUE = 1， 
CRB_INT_VALUE, 
CRB_DOUBLE VALUE, 
CRB_STRING VALUE, 
CRB_NATIVE_ POINTER VALUE, 
CRB_NULL VALUE, 
CRB_ARRAY_VALUE, 
CRB_ASSOC VALUE, 
CRB_CLOSURE VALUE, < 新 增 
CRB_FAKE_ METHOD VALUE, < 将 在 后 面 的 章节 中 介绍 
CRB_SCOPE CHAIN VALUE 

} CRB_ValueType; 
































typedef struct { 
CRB_ValueType type; 



































union { 

CRB_Boolean boolean value; 

int int_value; 

double double value; 

CRB_Object *object; 

CRB_Closure closure; < 新 增 

CRB_FakeMethod fake_method; < 将 在 后 面 的 章节 中 介绍 
} uu; 


} CRB_Value; 


Ci 


里 增加 了 FAKE_METHOD ， 我 会 在 后 面 的 章节 中 介绍 〈 抱 歉 ， 要 在 后 
面 介 绍 的 内 容 太 多 了 ) 。 


然后 是 第 二 个 特性 。 闭 包 虽 然 与 函数 指针 相似 ， 但 是 它 拥 有 可 以 引用 创 

其 位 置 的 局 部 变量 的 特性 〈 对 于 这 点 ， 也 有 闭 包 保存 了 其 创建 位 置 的 
环境 1 的 说 法 ) 。 局 部 变量 被 保存 在 assoc 中 ， 因 此 ， 我 想 CRB_Closure 
结构 体 可 以 定义 成 下 面 这 样 














1 环境: environment。 


typedef struct { 
CRB_FunctionDefinition *function; 
CRB_Object *environment; /* 指 癌 帧 的 assoc */ 


} CRB_Closure; 





成 员 function 指 同 了 函数 定义 的 实体 CRB_FunctionDefinition 
，environment 则 指向 了 创建 团 包 的 位 置 的 帧 。 


下 面 这 段 代 码 中 ， 在 注释 的 位 置 肯定 可 以 同时 引用 到 a 和 b 。 


function f() { 
a = 10; 
cl = Closure() { 
b = 208; 
c2 = closure() { 
# 这 里 可 以 同时 引用 到 a 和 b 
print("a.." + a+ "\n"); 
print("b.." + b+ "\n"); 























}; 
c2(); 


2 
return ci1; 








里 说 财 包 是 一 个 函数 ， 但 又 不 同 于 函数 ， 因 此 它 既 可 以 访问 保存 了 a 的 


帧 《函数 f() 的 帧 )， 了 又 可 以 访问 保存 bp 了 的 帧 ( 闭 包 c1 的 帧 )。 因 此 
可 以 看 出 ， 闭 包 要 保存 的 帧 不 止 一 个 。 


于 是 ， 引 入 了 作用 链 (scope chain〉 这 个 概念 。 作 用 链 是 以 链表 方式 管 
理 的 帧 的 assoc (图 9-2) 。 





,oe ScopeChain 对 象 


DN G 

9 9 [0 9| 
二 
i | | | 
| | | | 
Eo | ol 

; I 本 
er 
图 9-2 ”作用 链 


为 了 构建 这 个 链表 ， 我 们 引入 了 ScopeChain 结构 体 。ScopeChain 作 
为 GC 的 目标 ， 也 因此 成 为 了 CRB_0bject 的 共用 体 的 成 员 〈( 这 个 是 前 面 
写 到 的 要 在 后 面 章节 中 做 介绍 的 内 容 之 一 ) 。 


ScopeChain 结构 体 的 定义 如 下 。 








typedef struct { 
CRB_Object *frame; /* 指向 CRB_Assoc */ 
CRB_Object *next; /* 指向 ScopeChain */ 


}; 











但 是 ，CRB_Closure 并 没有 直接 指向 代表 帧 的 assoc， 而 是 指向 了 


ScopeChain。 





typedef struct { 

CRB_FunctionDefinition *function; 

CRB_Object *environment; /* 指向 ScopeChain */ 
} CRB_Closure; 


ee 


不 好 意思 各 位 ， 结 果 最 后 都 是 CRB_0bject ， 除 了 被 注释 的 内 容 之 外 没 
有 任何 改变 ”。 

*# 说 到 这 里 ， 各 位 一 定 会 羡 莫 能 够 使 用 继承 的 语言 吧 。 

另外 ，LocalEnvironment 结构 体 中 也 同样 没有 指 癌 assoc， 而 是 指 癌 

J ScopeChain 。 

至 于 具体 怎么 去 使 用 上 面 定义 的 这 些 结 构 体 ， 我 想 在 跟踪 程序 实际 执行 
时 考虑 的 话 ， 可 能 会 更 容易 理解 。 


9.1.6 ” 试 着 跟踪 程序 实际 执行 时 的 轨迹 

在 crowbar 中 ， 调 用 函数 、 创 建 闭 包 、 调 用 闭 包 ， 都 要 进行 以 下 动作 。 
[规则 1 在 调用 函数 的 时 候 ， 会 创建 新 的 LocalEnvironment 并 将 其 入 
栈 为 栈 顶 ”。 在 这 个 LocalEnvironment 中 ， 为 了 保存 在 当前 函数 中 声 
明 的 局 部 变量 ， 创建 并 分 配 (元 素 被 作为 一 个 作用 链 ) 了 一 个 新 的 


dSSOCo 


在 crowbar 中 ，LocalEnvironment 被 创建 在 堆 中 ， 但 实际 上 链表 是 在 
栈 中 实现 的 ， 因 此 在 这 里 认为 是 创建 在 栈 上 的 。 


[规则 2] 在 创建 闭 包 的 时 候 ， 这 个 闭 包 保存 着 栈 顶 LocalEnvironment 
中 的 作用 链 。 


[规则 3] 在 调用 闭 包 的 时 候 ， 会 在 规则 1 中 创建 新 的 作用 链 之 后 ， 再 将 其 
链接 到 保存 着 闭 包 的 作用 链 上 。 


这 些 规则 在 实际 上 是 怎样 操作 的 ， 请 参考 代码 清单 9-5。 
代码 清单 9-5“ 试 着 追踪 闭 包 执行 的 轨迹 















































function f() { 
a = 20; 
c1 = closure() { 
b = 108; 
c2 = closure() { 


UPUWUDP 











6: # 这 里 可 以 同时 引用 到 a 和 b 
7: print("a.." + a+ "\n"); 
8 print("b.." + b+ "\n"); 








2 
16 : c2(); 
11: }; 
12: return ci1; 
13: } 


15: c = f(); 
16: c(); 





1. 普通 的 函数 调用 


首先 ， 在 第 15 行 调用 f() 的 时 候 ， 会 根据 规则 1 创建 一 

个 LocalEnvironment ， 并 生成 第 一 个 帧 。 在 第 2 行 的 赋值 语句 中 ， 声 
明了 a 并 保存 在 新 创建 的 帧 中 。 之 后 的 动作 就 跟 调 用 一 般 的 函数 一 样 了 
(图 9-3) 。 另 外 ， 为 了 更 清楚 地 描述 这 个 过 程 ， 图 中 没有 出 现 
ScopeChain 结构 体 ， 而 是 画 得 好 像 代 表 帧 的 assoc 可 以 单独 构建 链表 一 


fs 
帧 
LocalEnvironment | 时 [> | 


图 9-3 ”普通 的 函数 调用 
2. 创建 闭 包 
第 3~11 行 创建 了 闭 包 。 


根据 规则 2， 闭 包 在 创建 的 时 候 保存 了 指 回 保存 了 LocalEnvironment 
的 作用 链 的 引用 。 


LocalEnvironment 





图 9-4 创建 财 包 


并 且 ，c1 本 身 就 是 一 个 局 部 变量 ， 因 此 与 a 保存 在 了 同一 个 帧 中 ， 图 中 
为 了 使 表达 更 为 简单 所 以 把 这 部 分 省 略 了 。 


这 里 的 “创建 闭 包 ” 是 指 ， 执 行 用 关键 字 closure 创建 闭 包 的 处 理 的 时 
候 。 第 3 行 中 创建 了 闭 包 并 赋值 给 了 变量 c1 ， 但 是 并 没有 马上 调用 闭 
包 c1 ， 在 第 5 行 生成 男 外 一 个 闭 包 的 时 候 也 没有 执行 ， 直 到 调用 了 f() 
将 其 返回 ， 闭 包 c1 一 直 都 没有 被 调用 。 





3. 调用 闭 包 


调用 f() 返回 之 后 ， 在 第 16 行 调用 了 闭 包 cl 。 


此 时 也 会 根据 规则 1 新 建 一 个 LocalEnvironment 和 帧 ， 并 且 根 据 规 则 
3， 在 新 建 了 帧 之 后 ， 再 将 其 链接 上 保存 着 闭 包 的 作用 链 (图 9-5) 。 


为 了 调用 cl 而 新 建 的 


LocalEnvironment 





在 cl 中 创建 b 的 空间 


图 9-5 调用 闭 包 


在 搜索 局 部 变量 的 时 候 ， 会 对 LocalEnvironment 引用 的 作用 链 依次 进 
行 搜 索 。 因 此 ， 在 cl1 中 是 可 以 引用 到 局 部 变量 a 的 。 








4. 创建 闭 包 中 的 闭 包 


在 开始 执行 赋值 给 cl1 的 闭 包 时 ， 首 先 会 执行 第 4 行为 b 的 赋值 。b 是 一 
个 单纯 的 局 部 变量 ， 因 此 会 在 LocalEnvironment 直接 指向 的 帧 中 创建 


空间 。 
在 接 下 来 的 第 5~9 行 中 创建 第 二 个 闭 包 c2 。 
此 时 ， 根 据 规则 2， 创 建 闭 包 c2 时 保存 了 指 问 LocalEnvironment 保存 


i 因此 ，c2 保存 的 作用 链 中 链接 着 存 有 b 的 帧 和 存 有 a 的 帧 
(图 9-6) 。 


为 了 调用 cl 而 新 建 的 


LocalEnvironment 


图 9-6 调用 闭 包 





5. 调用 和 藤 套 闭 包 


在 第 10 行 调用 了 c2 的 时 候 ， 根 据 规 则 3，c2 引用 的 作用 链 链接 到 了 新 的 
LocalEnvironment 上 ， 因 此 ，c2 中 应 该 可 以 同时 引用 a 和 b 。 





为 了 调用 c2 而 新 建 的 


LocalEnvironment 


为 了 调用 cl 而 新 建 的 


图 9-7 调用 髓 套 闭 包 
9.1.7 闭 包 的 语法 规则 
创建 闭 包 的 语言 规则 如 下 所 示 : 


closure definition 
: CLOSURE IDENTIFIER LP parameter list RP block 
| CLOSURE IDENTIFIER LP RP block 








| CLOSURE LP parameter list RP block 
| CLOSURE LP RP block 





在 closure_definition 被 reduce 的 时 候 ， 在 create.c 中 会 创建 如 下 结构 
体 (想象 一 下 就 能 知道 ， 它 是 Expression 结构 体 的 共用 体 成 员 ) 


typedef struct { 
CRB_FunctionDefinition *function definition; 


} ClosureExpression; 





由 于 闭 包 也 是 函数 ， 因 此 为 闭 包 表达 式 构 建 了 
CRB_FunctionDefinition 。 但 是 这 个 CRB_FunctionDefinition 仅 
可 以 由 分 析 树 中 的 closureExpression 引用 ， 并 不 会 添加 

到 CRB_Interpreter 的 function list 里 面 。 


另外 ， 在 上 面 的 四 个 语法 规则 中 ， 有 两 个 在 关键 字 closure 后 面 加 入 了 
标识 符 (IDENTIFIER ) 。 这 种 语法 规则 在 创建 命名 闭 包 时 使 用 。 


在 目前 为 止 出 现 的 例子 中 ， 闭 包 都 是 没有 名 字 的 。 但 如 果 想 要 在 闭 包 中 
递归 调用 目 己 的 话 ， 给 财 包 起 个 名 字 就 会 方便 很 多 。 


全 于 实现 上 ， 在 调用 命名 闭 包 时 ， 首 先 要 为 其 创建 新 的 帧 ， 此 时 将 团 包 
目 身 作为 指定 名 称 的 局 部 变量 登陆 进来 就 可 以 了 。 


9.1.8 ”普通 函数 











到 book_ver.0.3 为 止 ，crowbar 的 函数 调用 语法 规则 如 下 所 示 。 


primary_expression 
: IDENTIFIER LP argument list RP 
| IDENTIFIER LP RP 





为 了 可 以 使 用 半 包 ， 函 数 调 用 运算 符 () 的 左边 不 仅 可 以 是 IDENTIFIER 
， 还 可 以 是 任意 的 表达 式 。 


因此 ， 普 通 函 数 也 发 生 了 变化 ， 函数 名 用 来 返回 “表示 函数 的 值 ”(C 语 
言 中 的 函数 指针 ) 。 函 数 的 实体 也 变 成 了 ClosureExpression 。 


例如 ， 调 用 函数 print("hello\n") 时 的 形式 为 ， 返 回 print 标识 符 对 
应 的 “函数 >， 然后 再 调用 它 。 此 时 ，print 返回 的 


ClosureExpression 中 ，environment 成 员 为 NULL 。 


当然 也 可 以 通过 下 面 的 方法 将 普通 函数 赋值 给 变量 。 


p = print; 
p("hello,world\n"); 


9.1.9 ”模拟 方法 (修改 版 ) 
在 crowbar 的 数组 中 有 例如 size() 这 样 的 “方法 ”。 
book_ver.0.2 的 实现 方式 在 4.4.2 节 中 已 经 介绍 过 了 ， 但 是 在 这 次 的 修改 


中 ， 函 数 将 作为 “ 值 ” 被 处 理 。 因 此 ， 像 下 面 这 样 一 段 代码 必须 能 够 输出 
array 的 大 小 。 


a = array.size; 


print("array.size.." + a()); 





想 要 实现 它 ， 就 必须 要 、\ 
此 ， ne 0 J 


因此 ， 在 CRB_Value 共用 体 中 ， 增 加 了 专门 用 来 “模拟 方法 ”的 
CRB_FakeMethod 成 员 (这 也 是 前 面 说 过 的 会 在 后 面 章 节 中 介绍 的 内 容 
a 











typedef struct { 
char *method_name; /* 函数 名 */ 
CRB_Object *object; /* 相当 于 this 的 对 象 */ 





} CRB_FakeMethod; 





CRB_FakeMethod 结构 体 保存 了 前 面 所 说 的 指 问 array 的 引用 。 在 知道 
了 这 些 引 用 和 函数 名 之 后 ， 处 理 器 就 可 以 调用 模拟 方法 了 。 


9.1.10 ”基于 原型 的 面向 对 象 
实际 上 ，crowbar 的 设计 方式 多 多 少 少 参 考 了 JavaScript。 


像 JavaScript 和 crowbar 这 样 没 有 类 的 概念 、 每 个 实例 都 包含 不 同 字 段 和 
方法 的 语言 ， 被 称 为 基于 原型 的 面向 对 象 语言 〈prototype based object 
oriented language) 。 与 此 相对 ，Java、C# 和 Diksam 等 具有 类 的 概念 的 面 
问 对 象 被 称 为 基于 类 的 面 癌 对 象 语言 (class based object oriented 
language) 。 


ee 一 般 被 称 为 “基于 原型 的 面 癌 对 象 " 时 ， 多 数 情况 会 包含 如 下 特 


。 可 以 通过 复制 (克隆 ) 现 有 对 象 来 创建 新 的 对 象 。 
。 当 调 用 了 对 象 的 某 个 方法 之 后 ， 如 果 对 象 中 不 存在 这 个 方法 ， 则 上 自 
动 将 该 方法 的 调用 传递 给 其 他 对 象 ，( 原 型 链 ，prototype chain)。 
1 当然 这 两 个 对 象 要 具有 原型 继承 关系 。 一 一 译 者 注 
虽然 在 JavaScript 中 具有 原型 链 功 能 ， 但 是 在 crowbar 中 却 没 有 。 这 也 就 
意味 着 ，crowbar 算 不 上 是 基于 原型 的 面 同 对 象 语言 。 但 是 ， 基 于 原型 


的 面 癌 对 象 也 被 称 为 是 “基于 实例 的 ?或 者 是 “基于 对 象 的 ”， 从 这 两 个 方 
面 去 看 crowbar， 也 许 还 能 够 跟 它 们 归 为 一 类 。 


9.2 卉 第 处 理 机 制 


在 现在 的 语言 中 ， 当 程序 运行 过 程 中 发 生 了 预期 之 外 的 情况 时 ， 一 般 会 
发 生 异 常 (exception) 。 在 C 语 言 中 ， 多 数 情 况 下 会 通过 返回 值 不 停 地 
给 调用 者 返回 “错误 状态 >”。 这 种 做 法 不 仅 很 国 烦 ， 还 会 使 代码 由 于 磐 入 
了 异常 处 理 程 序 而 变 得 难以 阅读 。 


因此 ， 我 考虑 在 crowbar 和 Diksam 中 引入 异常 的 概念 。 
































9.2.1 ”为 crowbar 引 入 异 第 


在 crowbar 中 引入 了 与 Java 相 同 的 try~catch~finally 处 理 方式 。 

在 Java 和 C# 的 catch 子 句 中 虽然 可 以 对 应 不 同 的 异常 类 型 并 进行 处 理 ， 
但 是 因为 crowbar 中 本 来 就 没有 类 型 ， 所 以 也 就 只 写 一 个 catch 子 句 。 
有 具体 的 示例 请 参考 代码 清单 9-6。 


代码 清单 9-6 ”crowbar 的 异常 处 理 示 例 





try { 
zero = 0 
a= 3 / zero; 
} catch (e) { 
# 通过 child_of 方 法 判断 异常 种 类 
if(e.child of(DivisionByZeroException)) { 


print(" 不 能 被 6 除 。\n"); 
} else { 
throw e; 


} 





代码 清单 9-6 的 第 3 行 试图 用 3 除 以 09， 这 样 做 会 发 生 被 0 除 的 异常 (这 里 
特意 使 用 变量 zero 的 原因 是 ， 如 果 直 接 使 用 3/8 的 话 在 编译 时 会 出 现 
错误 ) 。 

第 4 行 的 catch 子 句 捕捉 了 这 个 异 

第 6 行 中 ， 通 过 调用 捕获 异常 对 象 的 child_of() 方法 来 检查 异常 的 类 
型 。 这 段 代码 里 检查 了 异常 是 否 是 DivisionByZeroException 类 型 ， 
如 果 是 则 输出 错误 信息 。 


如 果 不 是 处 理 器 定义 的 异常 ， 而 是 自己 认为 发 生 了 异常 情况 ， 可 以 使 
用 throw 抛 出 目 定 义 异 党 。 


e = new_exception(" 错 误 信息 "); 
throw e; 


Ly 
串 。 








new_exception() 是 一 个 原生 函数 。 返 回 值 为 异常 对 象 ， 是 一 个 
assoc。 调 用 new_exception() 时 ， 会 在 返回 值 中 保存 栈 轨迹 
Cstacktrace) 。 这 个 异常 如 果 没 有 被 catch 的 话 ， 会 一 直 传 播 到 顶层 结 
构 。 处 理 器 会 记录 栈 轨 迹 ， 也 可 以 通过 print_stack trace() 方法 从 
程序 中 输出 栈 轨迹 。 


像 被 0 除 这 种 在 处 理 器 中 发 生 的 寞 利通 常 都 会 有 父子 关系 ， 例 如 
DivisionByZeroException 就 是 ArithmeticException 的 子 类 。 
此 ， 在 代码 清单 9-6 的 第 6 行 可 以 将 DivisionByZeroException 替换 
为 ArithmeticException ，child of() 方法 仍然 会 返回 真 。 


通过 在 各 “异常 类 ”中 保存 父 异 津 的 方式 来 实现 这 种 父子 关系 。 男 外 ， 妆 
然 无 论 是 ArithmeticException 还 是 DivisionByZeroException 都 
不 是 关键 字 ， 只 是 全 局 变量 而 已 。 说 了 这 么 多 ， 还 是 快 点 来 看 一 段 代 码 
吧 (代码 清单 9-7)。 


代码 清单 9-7 “ 寞 常 类 ”的 实现 























1 function create exception class(parent) { 
2 this = new object(); 

3: this.parent = parent; 

4: this.create = closure(message) { 

5: e = new exception(message); 

6 e.stack trace.remove(0); 

7 e.child of = this.child of; 

8 


> return e; 
9 : }; 
16 : this.child of = closure(o) { 
11: for (p = this; p != null; p = p.parent) { 
12: if (p == 0) { 
13.: return true; 
14: } 
15: 
16: return false; 
17: }; 
18: return this; 
19: } 
20: 
21: RootException = create exception class(null); 
22: BugException = create exception class(RootException); 
23: RuntimeException = create exception class(RootException); 
24: ArithmeticException = create exception class(RuntimeException); 


25: VariableNotFoundException = create exception class(BugException); 


(之 后 省 略 ) 


代码 清单 9-7 的 源 文件 在 builtin 目 录 下 的 builtin.crb 中 。 具 体 是 如 何 加 载 它 
的 将 在 9.3 节 中 介绍 。 


从 第 1 行 开始 的 create_exception class() 函数 是 “异常 类 ”的 构造 函 
数 。 各 种 异常 类 型 从 第 21 行 开始 被 定义 为 全 局 变量 。 异 常 类 对 于 程序 来 
说 只 存在 一 个 ， 可 以 通过 调用 异常 类 的 create() 方法 来 创建 这 个 异常 
类 的 实例 。 


父 异 常 通过 “异常 类 ”的 构造 函数 接收 的 参数 parent 被 保存 起 来 。 
此 ， 第 10 行 的 child_of() 方法 可 以 检查 异常 的 层级 。 只 是 ， 由 于 
child_of() 是 “异常 类 ”的 方法 ， 因 此 在 创建 异常 的 实例 时 要 把 它 设置 
到 异常 的 实例 中 《第 7 行 ) 。 异 常 实例 中 的 parent 成 员 即 使 什么 都 没 
有 ， 也 可 以 调用 child_of() 方法 ， 这 就 是 闭 包 的 魔力 。 


男 外 ， 第 6 行 移 除 了 栈 轨 迹 的 第 一 个 元 素 ， 这 样 做 是 为 了 不 让 栈 轨 迹 中 
含 调用 create( ) 方法 的 痕迹 。 
在 crowbar 中 ， 异 和 常 的 栈 轨 迹 以 下 面 的 格式 输出 。 


























不 能 被 6 除 。 
func at 6 
func at 3 
func at 3 


func at 3 
top_ level as 9 





上 面 这 上 段 输出 来 自 代 码 清 单 9-8。 在 递归 调用 func() 
时 ，DivisionByZeroException 异常 会 发 生 在 程序 的 深 处 。 


代码 清单 9-8 ”exception.crb 





a= 3 / zero; 


1: function func(count) { 
2: if (count < 3) { 

3: func(count + 1); 
4: } 

5 : zero = 0 

6 : 

了 


} 


8 : 
9 : func(6) ; 


9.2.2 setjmpQ/longjmp0 





crowbar 的 程序 是 一 边 递归 分 析 树 一 边 执行 的 。 因 此 ， 在 发 生 异 常 的 时 
候 ， 会 一 下 子 追 调 到 C 语 言 的 调用 层级 中 。 


crowbar 的 控制 结构 return 、break 、continue 有 着 同样 的 问题 ， 在 
使 用 上 述 控制 结构 时 ， 会 通过 返回 值 将 各 种 状态 返回 给 调用 者 。 但 是 ， 
相对 于 return 和 break 只 会 发 生 在 “语句 ”级 别 ， 异 常 有 可 能 发 生 在 “ 表 
达 式 ”的 深 处 ， 因 此 要 将 它 对 应 返回 值 会 比较 矿 烦 。 这 种 情况 下 ， 我 们 
可 以 使 用 setjmp() /longjmp() 。 


普通 的 C 语 言 使 用 者 可 能 大 多 数 还 不 太 熟 悉 setjmp() /longjmp() 。 更 
确切 地 说 ， 有 的 人 认为 “ 它 是 一 个 比 goto 还 要 邪恶 的 ， 可 以 跨越 函数 界 
限 进行 长 距离 〈long) 跳 转 〈jmp) 的 可 怕 函 数 ! ” 


但 是 ， 无 论 什 么 事情 ， 无 论 是 好 是 坏 ， 都 要 好 好 的 研究 一 下 才能 下 结 
论 。 如 果 自 己 连用 都 没 用 过 就 说 “这 个 不 好 用 ”， 那 这 人 也 实在 是 充 唐 。 
所 以 ， 以 下 我 们 先 简 单 地 看 一 下 setjmp() /longjmp()。 


。 setjmp() 的 参数 是 jmp_buf 类 型 的 变量 ， 调 用 函数 时 在 参数 中 保 
存 程序 的 上 下 文 。 


。1longjmp() 用 于 返回 到 使 用 setjmp() 保存 的 位 置 。 
即使 通过 多 次 函数 调用 进行 到 了 很 深 的 级 别 ， 也 可 以 瞬间 返回 。 


从 longjmp() 这 个 名 字 就 可 以 看 出 来 ， 它 可 以 跨越 函数 界限 随意 跳 转 到 
任何 位 置 。 但 实际 上 ， 它 只 能 “返回 ”到 使 用 setjmp() 标记 过 的 位 置 。 
在 longjmp() 看 来 ，setjmp() 标记 的 必须 是 “调用 者 ”。 在 1ongJjmp() 
的 时 候 ， 被 setjmp() 标记 了 的 函数 在 没有 返回 的 情况 下 会 从 栈 中 删 
除 。 基 于 以 上 操作 ， 我 觉得 这 个 方法 叫 longjmp() 有 点 不 太 人 合适， 应 该 
叫 longreturn() 才 更 加 贴切 。 

















更 重要 的 是 ，setjmp() 在 保存 程序 上 下 文 的 时 候 返 回 6 。 在 使 

用 longjmp() 返回 时 ，longjmp() 的 第 2 个 参数 也 会 跟着 返回 。 根 据 第 
人 可 以 判断 出 当前 执行 的 程序 是 从 哪个 longjmp() 返 
回 的 。 


使 用 这 两 个 函数 编写 下 面 这 段 代 码 的 时 候 ， 可 以 从 深层 的 函数 调用 中 有 瞬 
间 返 回回 来 。 
/* 为 了 保存 调用 者 的 程序 上 下 文 ， 声 明了 一 个 变量 */ 


jmp_buf recovery_environment; 

















if (setjmp(recovery environment) == 9) { 
/* setjmp() 在 第 一 次 调用 的 时 候 返回 9， 进 入 这 个 分 文 
* 在 这 个 分 文中 进行 正常 情况 下 的 处 理 
* 在 这 里 调用 了 1longjmp() 后 ， 会 执行 下 面 的 else 子 句 。 
* 对 于 longjmp() 的 调用 ， 在 这 里 即使 进行 了 












































* 深层 次 的 函数 调用 ， 其 结果 也 不 会 改变 。 

long jmp(recovery environment, 1); 
} else { 

/* 执行 了 longjmp() 之 后 会 进入 这 个 分 文 进行 处 理 

*/ 
































作为 参数 被 传 入 setjmp() 的 jmp_buf 类 型 变量 中 保存 着 “当前 程序 的 上 
下 文 >。“ 当 前 程序 的 上 下 文 * 中 包含 了 当前 寄存 器 的 值 等 很 多 东西 ， 但 
首当其冲 要 记录 的 我 认为 就 是 setjmp() 被 调用 的 地 点 。 再 把 这 

个 jmp_buf 当做 参数 传递 给 longjmp() 的 话 ， 就 应 该 能 返回 到 jmp_buf 
记录 的 地 点 了 。 


另外 ， 可 能 有 人 会 有 这 样 的 疑问 : “setjmp() 的 参数 并 没有 加 上 & 传 
递 ， 为 什么 还 能 保存 程序 的 上 下 文 呢 ? C 的 参数 不 是 按 值 传递 的 吗 ? ”这 
是 因为 jmp_buf 类 型 被 typedef 成 了 数组 。 请 务必 检查 您 环境 的 头 文 
件 。 我 觉得 这 是 一 个 会 招致 混乱 的 设计 。 

实际 上 crowbar 的 异常 处 理 在 代码 清单 9-9 中 进行 了 实现 (execute.c) 。 


代码 清单 9-9 ”execute_try_statement() 函 数 














1: static StatementResult 
2: execute try _ statement(CRB_ Interpreter *inter, CRB LocalEnvironment * 


16 : 
11: 
12: 
工 3 
14 : 
15 : 
16 : 
17 : 
18 : 
19 : 
20: 
21: 
22: 
23: 
24: 
25: 
26 : 
2 
28 : 
29: 
30: 
31: 
32 : 
33 : 
34 : 
35 : 
36 : 
37 : 
38 : 
39 : 
40: 
41: 
42: 
43: 
44: 
45: 
46 : 
47 : 
48 : 
49 : 
50: 


\D ov、vlQOQJwm 人 ww 


Statement *statement) 


StatementResult result; 
int stack pointer backup; 
RecoveryEnvironment env_backup; 


/* 备份 crowbar 栈 的 栈 指针 和 jmp_buf */ 
stack pointer backup = crb get stack pointer(inter); 
env_backup = inter->current recovery_ environment; 
if (setjmp(inter->current recovery environment.environment) == 6 
/* 执行 try 子 名 */ 
result = crb execute statement list(inter, env, 
statement->u.try_s.try_b 
->statement list); 





} else { 
/* 发 生 异 常 时 的 处 理 。 首 先 恢复 crowbar 的 栈 和 jmp_buf */ 
crb set stack pointer(inter, stack pointer backup); 
inter->current recovery_environment = env_backup; 














if (statement->u.try_s.catch block) { 
/* 执行 catch 子 句 */ 


CRB_Value ex_value; 





ex_value = inter->current exception; 
CRB_push value(inter, &ex_value); 
inter->current _ exception.type=CRB_NULL_ VALUE 


assign to variable(inter, env, statement->line number, 
statement->u.try_s.exception, &ex_val 


result = crb execute statement list(inter, env, 
statement->u.try_s.catch 
->statement list); 
CRB_shrink_ stack(inter, 1); 
} 
} 


inter->current recovery_ environment = e 
if (statement->u.try_s.finally block) { 
/* 执行 finally 子 句 */ 
crb execute statement list(inter, env, 
statement->u.try_s.final 
->statement list); 


nv_backup; 


} 
if (!statement->u.try_s.catch block 


&& inter->current exception.type != CRB_ NULL VALUE) { 
/* 如 果 没 有 catch 子 句 的 话 ， 创 建新 的 throw 直 接 抛 出 异常 */ 
longjmp(env_backup.environment, LONGJMP_ARG); 














SO: return result; 





crowbar 使 用 自己 的 栈 计算 表达 式 ， 在 第 10 行 备份 了 这 个 栈 。 因 为 如 果 
表达 式 执行 到 次 处 时 发 生 了 异种 的 话 ， 惑 必须 要 抛弃 那个 时 候 的 栈 。 


另外 ， 在 第 11 行 使 用 变量 env_backup 进行 了 备份 ， 这 个 变量 的 类 型 
是 RecoveryEnvironment ， 因 此 它 的 实体 只 包含 了 一 个 jmp_buf 的 结 
构 体 〈 这 里 特意 声明 了 一 个 结构 体 以 备 将 来 扩展 ) 。 


这 两 个 用 于 备份 的 局 部 变量 被 放 在 了 C 的 栈 上 。 因 此 ， 没 有 catch 子 句 
或 从 catch 子 句 中 再 throw 后 ， 无 论 返 回 到 任何 阶段 〈 第 49 行 ) ， 都 需 
要 依次 从 C 栈 上 的 备份 中 恢复 这 两 个 变量 。 


并 且 ， 无 论 从 try 子 句 中 调用 什么 阶段 的 函数 ， 如 果 在 深层 发 生 异 常 ， 
是 不 能 瞬间 返回 到 catch 中 ， 而 是 顺 着 函数 调用 的 顺序 返回 的 。 因 此 ， 在 
调用 crowbar 函 数 的 时 候 也 会 执行 setjmp() 。 这 样 做 的 前 提 

是 CRB_LocalEnvironment 在 必要 的 时 候 能 够 开放 《基于 eval.c 的 
eval function call1_expression() ) 。 








stack_ pointer backup = crb_get_stack_pointer(inter); 

env_backup = inter->current recovery_environment; 

if (setjmp(inter->current recovery environment.environment) == 6) { 
do_function call(inter, local env, env, expr, func); 

} else { 
/* 如 果 在 函数 内 发 生 异 常 的 话 ， 抛 弃 LocalEnvironment */ 


dispose local environment(inter); 




















crb_ set stack pointer(inter, stack pointer backup); 
/* 紧 接 着 调用 longjmp() */ 
longjmp(env_backup.environment, LONGJMP_ARG); 








inter->current recovery_ environment = env_backup; 
dispose local environment(inter); 





另外 ， 在 代码 清单 9-9 的 第 47 行 检查 了 inter- 

>current_exception.type ， 这 样 做 是 为 了 保证 它 保存 的 是 “当前 的 
异常 ?>， 以 便 在 throw 的 时 候 进 行 设置 。 因 此 ， 它 会 在 catch 子 句 中 被 
抛弃 (第 28 行 )， 并 在 catch 子 句 执行 (第 33~35 行 ) 并且 发 生 异 常 的 时 











候 被 重新 设置 。 


再 来 说 说 finally 子 句 ， 一 旦 进入 了 try 子 句 就 “必须 ”要 执行 finally 
子 句 。 例 如 在 下 面 这 段 代 码 中 使 用 break 跳出 了 for 语句 ， 即 使 是 在 这 
种 情况 下 ， 在 跳出 循环 之 前 也 必须 要 执行 finally 子 句 。 


for (;;) { 
try { 
break; 
} finally { 














# 即使 进行 了 break， 这 里 的 代码 也 会 执行 








} 
} 





在 crowbar 中 出 现 了 break 等 跳 转 语句 时 ， 将 把 语句 的 执行 结 
(CRB_StatementResult ) 作为 返回 值 返回 给 调用 者 〈 请 参考 3.3.6 
节 ) 。 在 代码 清单 9-9 中 ， 无 论 try 子 句 得 到 怎样 的 执行 结果 都 会 执 
行 finally 子 句 ， 以 保证 “必须 执行 finally ”。 但 是 ， 另 一 方面 ， 如 果 
try 子 句 中 进行 了 break 的 话 ， 在 finally 执行 结束 后 还 是 要 执 

行 break 。 还 有 ， 如 果 在 try 中 return 3; 、 在 finally 中 有 return 5; 
的 时 候 ， 到 底 要 返回 哪个 才 对 呢 ? 在 Java 中 ， 如 果 在 final1ly 子 句 中 写 
了 return 、break 等 控制 语句 的 话 ，javac 会 发 出 警告 。C# 中 则 会 直 
接 发 生 编 译 错 误 。 


在 crowbar 中 ，try 语句 最 终 执 行 结果 的 原则 是 ， 无 论 finally 中 是 什么 结 
果 都 会 被 忽略 ， 要 优先 使 用 try 或 者 catch 子 句 的 执行 结 

补充 知识 、Java 和 C# 异 常 处 理 的 不 同 

关于 Java 和 C# 和 异常 处 理 的 不 同 点 ， 通 过 搜索 引擎 搜索 “Java C# 寞 第 不 
同 ” 这 样 的 关键 字 就 能 得 到 “有 无 检查 异常 ”* 的 相关 资料 。 


这 扣 会 在 9.2.6 市 的 补充 知识 中 做 介绍 。 除 此 之 外 ，C# 的 异常 和 Java 的 弄 
常 还 有 很 多 区 别 ，Java 的 程序 员 如 果 使 用 C# 的 话 会 很 容易 上 手 ( 反 过 来 
就 不 一 定 了 ) 。 


首先 ， 在 Java 中 ， 卉 常 的 栈 轨迹 创建 于 “异常 new 出 来 的 时 候 ?。 比 如 下 
面 这 段 程序 中 ， 寞 第 一 被 new 出 来 后 蕊 上 束 输 出 栈 轨 迹 ， 此 时 可 以 把 当 

















前 的 栈 轨迹 完全 输出 出 来 。 


Exception e = new Exception(); 
e.printStackTrace(); 








多 数 人 可 能 会 在 调试 的 时 候 编 写 这 样 的 代码 。 


与 此 相对 在 C# 中 ， 栈 轨迹 在 “throw 之 后 返回 到 方法 调用 的 层级 的 时 
候 ” 被 依次 组 装 起 来 的 。 可 以 通过 代码 清单 9-10 的 示例 代码 来 确认 这 个 


问题 。 


代码 清单 9-10”C# 的 异常 







































































1: using System; 

2: Using System.Collections.Generic; 

3: Using System.Text; 

4: 

5: namespace Exceptiontest 

6: { 

7: class Program 

8: { 

9 : static void Sub(int count) 
16 : { 
11: if (count == 0) 
12: { 
13: throw new Exception(); 
14: } 
15: try 
16: 
17: Sub(count - 1); 
18: 
19: catch (Exception e) 
20: { 
21: // 进行 递归 调用 使 异常 发 生 在 较 深 的 层级 
22: // 每 一 个 层级 catch 到 异常 后 ， 再 继续 throw。 
23 : // 在 每 次 catch 的 时 候 ， 栈 轨迹 都 会 随 之 增长 ， 从 这 点 就 可 以 看 出 
24: // C# 中 异常 的 栈 轨 迹 ， 是 在 返回 到 调用 者 的 层级 后 
25: // 再 进行 组 装 的 。 
26 : Console.WNFiteLine( ”六 沙洲 炒米 炒米 炒米 米 COUn 七 ..” 十 COUNn 七 十 "六 六 六 六 六 
27 : Console.Write(e.ToString()); 
28: throw; 
29 : } 

30: } 


32: static void main (string[] args) 


33: { 

34: try 

35: { 

36: Sub(16) ; 

37 : } 

38: catch (Exception e) 

39: { 

40 : Console .WriteLine( ”六 沙洲 炒米 炒米 米 炒米 二 nal 炒米 炒米 炒米 沙 沙洲 ”) ， 
41: Console.Write(e.ToString()); 
42: } 

43: } 

44: 

45: } 








说 到 这 样 做 的 理由 ， 比 如 创建 异常 在 某 个 工具 类 中 的 时 候 ， 如 果 栈 轨迹 
中 只 包含 了 这 个 工具 类 的 方法 的 话 ， 束 会 让 调试 人 员 撞 不 着 头脑 。 实 际 
上 ，crowbar 也 采用 Java 的 方式 〈 见 代码 清单 9-7) ， 为 了 从 栈 轨迹 中 删 
从 第 4 行 的 create() 方法 ， 不 得 不 在 第 6 行 做 那样 奇怪 的 事情 。 


在 C# 中 ， 调 试 时 如 果 想 看 一 下 栈 轨迹 的 话 ， 可 以 使 

用 Environment .StackTrace 。 

人 0 
段 代 码 : 


} catch(HogeException e) { 


throw e; 


} 





但 是 ， 在 C# 中 throw 的 时 候 ， 会 重新 设置 e 中 的 栈 轨迹 ， 从 而 在 C# 中 内 
需要 这 样 写 束 可 以 了 : 


C# 中 增加 了 “将 在 catch 子 句 中 捕获 的 异常 直接 抛 出 ”的 语法 。 


在 crowbar 中 既然 采用 了 Java 的 方式 ， 那 么 在 Diksam 中 让 我 们 来 试 试看 
C# 的 方式 。 具 体 的 实现 方式 将 在 下 一 节 中 介绍 。 


9.2.3 ”为 Diksam 引 入 异常 
说 完了 crowbar， 本 节 就 要 为 Diksam 引 入 异常 的 概念 了 。 
下 面 就 为 Diksam 引 入 与 Java 和 C# 相 同 的 异常 处 理 机 制 。 
try { 

/* 七 Pry 子 句 */ 
} catch (HogeException e) { 


/* 与 HogeException 对 应 的 catch 子 句 */ 
} catch (PiyoException e) { 


/* 与 PiyoException 对 应 的 catch 子 句 */ 
} finally { 
/* finally 子 句 ， 这 里 的 代码 必然 会 执行 */ 


} 





由 于 crowbar 中 没有 类 的 概念 ”"， 因 此 只 能 编写 一 个 catch 子 句 。 但 是 在 
Diksam 中 与 Java 相 同 ， 可 以 编写 与 各 种 异常 类 对 应 的 catch 子 句 。 

* 实 际 上 是 可 以 做 出 相似 的 异常 层级 结构 的 ， 即 使 使 用 crowbar 的 功能 做 出 了 这 样 一 个 层级 结 
构 ， 从 语言 的 设计 层次 来 讲 并 没有 特别 支持 这 种 方式 ， 而 对 我 本 人 来 说 也 很 抗拒 这 种 上 下 相 逆 
的 事情 。 


另外 ， 和 Java、C# 等 相同 的 地 方 是 ， 也 可 以 通过 throw 抛 出 异常 。 


throw e; // throw 异 常 e 


crowbar 使 用 了 Java 的 风格 ， 即 在 new 异常 的 时 候 创 建 栈 轨 迹 ， 因 此 在 
Diksam 中 要 使 用 C# 的 风格 ， 即 在 throw 的 时 候 创 建 栈 轨迹 请 参考 
9.2.2 节 的 补充 知识 ) 。 所 以 ， 在 catch 子 句 中 抛 出 异常 的 时 候 可 以 只 写 


throw; 。 


另外 ， 和 Java、C# 等 相同 的 可 以 被 throw 和 catch 的 只 有 Exception 的 
了 






































* 由 于 Exception 是 在 Diksam 中 创建 的 类 ， 这 里 果然 还 是 做 了 “上 下 相 逆 ”的 事情 。 








补充 知识 ”catch 的 编写 方法 


如 前 面 所 述 ， 在 crowbar 中 只 能 编写 一 个 catch 子 句 ， 但 是 在 Diksam 中 
就 可 以 编写 与 各 种 异常 类 对 应 的 catch 子 句 。“ 可 以 编写 "看 上 去 是 一 个 
很 方便 的 功能 ， 但 是 实际 使 用 起 来 就 不 是 那么 方便 了 。 


例如 ， 异 第 A 和 异常 B 想 要 进行 同样 的 处 理 ， 但 是 这 种 时 候 根据 Java 的 风 
格 ， 束 只 能 把 同样 的 catch 子 句 编写 多 次 了。 这样 一 来 束 违 反 了 “同样 
的 代码 不 能 在 多 个 位 置 编写 ”的 编码 大 原则 。 


当然 ， 如 果 寞 常 A 和 异常 B 用 同样 的 超 类 的 话 ， 可 以 通过 catch 超 类 的 
方式 达到 目的 ， 但 是 异常 的 层级 通常 都 是 从 提供 异常 类 的 角度 、 而 不 是 
从 异种 使 用 者 的 角度 出 发 的 。 


假设 “ 想 要 对 寞 党 A 和 寞 常 B 进 行 同样 的 处 理 ” 的 时 候 ， 束 必须 要 简单 地 

描述 OR 条 件 ， 只 有 这 样 才 可 以 考虑 在 catch 子 句 中 用 去 号 分 陋 的 方式 

间 定 要 处 理 的 类 (和 完 忽 略 如 何 将 异 单 赋值 给 变量 的 事情 〉。 还 有 一 种 情 
况 ， 那 束 是 “ 寞 常 A 和 寞 常 B 使 用 同样 的 处 理 方式 ， 和 异常 C 使 用 力 外 的 处 
理 方式 ， 但 无 论 是 什么 样 的 异 音 ， 都 会 有 输出 日 志 的 通用 处 理 ”。 基 于 

上 面 这 些 考 虑 ， 我 想 还 是 像 下 面 这 样 ， 在 一 个 catch 子 句 中 使 用 if 语 

句 来 判断 可 能 更 好 。 





























try{ 


} catch (Exception e) { 
// 通用 处 理 
if (e instanceof A || e instanceof B) { 

// 处 理 异常 A 或 者 是 异常 B 
} elsif (e instanceof C) { 

// 处 理 异常 C 
} else { 

// 预想 外 的 异 第 癌 上 throw 
}throw; 





















































但 这 个 方法 要 想 处 理发 生 的 意料 之 外 的 异常 ， 就 必须 要 在 if 语句 的 
else 子 句 中 继续 throw 异常 。 这 段 代码 非常 容易 被 忘记 。 


更 重要 的 是 ， 使 用 者 既 可 以 像 Java 那 样 编写 多 个 catch 子 句 ， 也 可 以 像 
上 面 的 代码 那样 编写 一 个 catch 子 句 ， 但 如 果 只 写 一 个 catch 子 句 的 
话 ， 编 码 方式 就 不 能 像 Java 一 样 了 。 这 意味 着 给 了 使 用 者 更 多 的 选择 ， 
在 这 点 上 Diksam 和 Java 是 一 致 的 。 


9.2.4 ”异常 的 数据 结构 


try 语 句 中 包含 了 try 、catch 和 finally 三 个 子 句 。 用 DVM_Try 结构 体 
表示 的 话 如 下 所 示 。 


/* catch 子 句 */ 

typedef struct { 
int class _index; /* 使 用 了 catch 的 类 的 索引 值 */ 
int start pc; /* catch 开 始 位 置 的 PC 程序 计数 器 ) */ 
int end_pc; /* catch 结 束 位 置 的 PC */ 

} DVM CatchClause; 

















/* try 语 句 */ 
typedef struct { 





int try_start_pc; /* try 开 始 位 置 的 PC */ 
int try_end_pc; /* try 结 束 位 置 的 PC */ 
int catch_count; /* catch 子 句 的 数量 */ 
DVM_CatchClause *catch_clause; /* catch 子 句 的 可 变 长 数组 */ 
int finally_start_pc; /* finally 开 始 位 置 的 PC */ 
int finally_end_pc; /* finally 结 束 位 置 的 PC */ 

} DVM_Try; 





























在 DVM_Try 结构 体 的 可 变 长 数组 中 可 以 添加 顶层 结构 和 DVM_Function 
。 另 外 ， 由 于 顶层 结构 和 函数 《的 程序 块 ) 增加 了 一 些 附加 信息 ， 因 此 
这 次 把 “程序 块 ? 也 作为 结构 体 抽 取 了 出 来 。 





typedef struct { 





int code size; 

DVM_Byte *code; 

int line number size; 

DVM_ LineNumber *]ine_number; 

int try_size; /* try 子 句 的 数量 */ 
DVM_Try *try; /* try 子 句 的 可 变 长 数组 */ 


int need stack size; 


} DVM CodeBlock; 


虽然 除了 新 增 的 try 子 句 的 相关 成 员外 ， 其 他 成 员 都 在 以 前 的 
DVM_Executable (顶层 结构 部 分 ) 和 DVM_Function (各 函数 部 分 ) 
中 出 现 过 了 ， 但 这 里 还 是 应 该 把 它 作为 单独 的 结构 体 区 分 出 

来 。DVM_Try 中 的 数组 〈 在 generate.c 中 ) 在 后 续 裔 历 (post-order 
traversal ) 分 析 树 时 ， 每 当 遇 到 try 语句 的 时 候 就 在 数组 末尾 增加 元 素 
(Cgenerate_try_statement() ) 。 因 此 ， 这 个 数组 是 按照 程序 层级 
的 深度 来 排列 try 语 句 的 〈 越 深层 级 的 try 就 越 被 排 在 前 面 〉。 


在 发 生 异 党 的 时 候 ， 首 先 将 这 个 异 第 设置 到 DVM_VirtualMachine 结构 
体 的 current_exception 成 员 (新 增 ) 中 ， 再 将 DVM 设 置 为 “异常 状 
态 ”。 








基于 以 上 介绍 ， 我 们 以 从 0 开始 按 顺 序 扫描 DVM_Try 的 数组 ， 寻 找 包 含 
这 个 位 置 的 程序 计数 器 的 try 语句 。 结 果 有 以 下 几 种 情况 。 


1. 异常 发 生 在 try 语句 的 try 子 句 中 


在 这 种 情况 下 ， 首 先 要 寻找 捕捉 已 发 生 寞 常 的 catch 子 句 ， 如 宋 发 
现 了 ， 就 解除 异种 状态 并 将 控制 权 移 交 给 相应 的 catch 子 句 。 


如 果 没 有 与 异常 对 应 的 catch 子 句 ， 就 把 控制 权 移 交 给 finally 子 
二。 








异常 发 生 在 try 语句 的 catch 子 句 中 
在 这 种 情况 中 ， 不 解除 异常 状态 并 将 控制 权 移交 给 finally 子 句 。 


. 异常 发 生 在 try 语句 的 finally 子 句 中 
在 这 种 情况 中 ， 和 4. 的 处 理 方 式 相同 。 


4. 异常 发 生 在 try 语句 之 外 
强制 从 当前 函数 中 返回 ， 并 试图 从 基于 当前 位 置 的 DVM_Try 中 寻找 
包含 当前 程序 计数 器 的 try 语句 ， 以 此 方式 修正 异常 。 


Diksam 的 编译 为 了 处 理 起 来 简单 ， 不 论 try 语句 中 是 否 有 finally 子 
句 ， 都 将 为 它 创建 一 个 Finally 。 这 个 将 在 后 面 介绍 。 





这 个 处 理 的 代码 如 代码 清单 9-11 所 示 。 第 14 行 调用 的 函 
数 throw_in_try() ， 会 在 上 述 1、2 的 情况 下 返回 真 。 


代码 清单 9-11 发 生 异 第 时 的 处 理 





1: static DVM Boolean 
2: do throw(DVM VirtualMachine *dvm, 
3: Function **func p, DVM Byte **code p, int *code size p, int *p 





















































4: int *base p, ExecutableEntry **ee p, DVM Executable **exe p, 

5 : DVM_ObjectRef *exception) 

6: { 

7: DVM_Boolean in try; 

8 : 

9 : dvm->current exception = *exception; 

10: 

11: for (;;) { 

12: /* 当 异 常 发 生 在 try 语 句 的 try 子 句 或 catch 子 句 的 时 候 ， 

13: throw_in_try 函 数 会 将 设置 跳 转 地 址 并 返回 真 。*/ 

14 : in _ try = throw in try(dvm, *exe p, *func p, pc_p, 

15:: &dvm->stack.stack pointer, *base p); 

16: if (in try) 

17: break; 

18: 

19: if (*func p) { 

20: /* 当 异 常 发 生 在 fijnally 子 句 或 者 try 语 句 外 的 时 候 ， 

21: 把 发 生 异 常 的 位 置 记录 到 栈 轨迹 中 并 强制 返回 。 

22: 在 返回 之 后 ， 将 再 次 使 用 throw_in_try 进 行 修复 。*/ 

23: add stack trace(dvm, *exe p, *func p, *pc _p); 

24: /* do_return 在 要 程序 返回 原生 函数 时 返回 真 ， 这 里 不 做 详细 说 明 。 */ 
25 if(do return(dvm, func p, code p, code size p, pc_p, 

26: base p, ee p, exe p))t{ 

27: return DVM_TRUE; 

28 : } 

29 : } else { 

36: /* 在 返回 到 顶层 结构 的 时 候 将 栈 轨迹 输出 并 终止 程序 的 执行 。 */ 

31 : int func_ index 

32: = dvm_ search function(dvm, 

33: DVM_DIKSAM DEFAULT_T_P 
34: DIKSAM PRINT_STACK_TRA 
35: add_ stack trace(dvm, *exe p, *func p, *pc _p); 

36: 

37: invoke diksam function from native(dvm, dvm->function[func_ 
38 : dvm->current exception, 
39: exit(1); 
40: } 
41: } 


42: return DVM_FALSE; 


9.2.5 “异常 处 理 时 生成 的 字 节 码 


首先 ， 在 使 用 者 编写 了 像 throw e; 这 样 的 代码 在 抛 出 异常 的 时 候 ， 这 
里 将 会 创建 throw 指令 。 编 译 器 会 将 眼前 的 e 入 栈 ， 因 此 这 个 指令 会 抛 
出 保存 在 栈 顶 的 异常 。 


Diksam 的 异常 与 C# 风 格 相 似 ， 只 需要 写 throw; 就 可 以 将 当前 catch 的 
异常 抛 出 去 (请 参考 9.2.2 市 的 补充 知识 ) 。 在 这 个 时 候 会 创建 指令 
rethrow ， 但 是 在 rethrow 指令 中 依旧 不 变 地 抛 出 保存 在 栈 顶 的 异常 

(编译 器 会 悄悄 地 把 在 catch 子 句 中 定义 的 变量 入 栈 ) 。 和 throw 动作 
不 同 的 只 是 不 会 重新 设置 栈 轨迹 。 


try 子 句 通常 会 生成 下 面 这 样 的 字 节 人 码 〈 为 了 方便 说 明 ， 使 用 了 念 真 代 
码 ， 并 在 左边 添加 了 行 号 ) 。 


: # 在 这 里 加 入 try 子 句 的 指令 
: go_finally 14 

: jump 16 

# 第 一 个 catch 子 句 
pop_stack_ object n #4 
# 这 里 插入 catch 子 句 的 指 
: go_finally 14 

: jump 16 

: # 第 二 个 catch 子 句 
: pop_stack_object n # 将 异 


















































各 异常 赋值 给 变量 
令 
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9 
: # 这 里 插入 catch 子 句 的 指令 
: go_finally 14 
: jump 16 
: # 这 里 插入 finally 子 句 的 指令 
: finally_end 
: # 之 后 的 处 理 





















































首先 ， 请 看 一 下 每 个 catch 子 句 开头 的 pop_stack_object 。 这 是 为 了 
在 下 面 这 种 情况 时 ， 把 异常 的 引用 赋值 给 变量 e 。 


} catch (HogeException e) { 


也 就 是 说 ，DVM 将 异常 入 栈 为 栈 顶 并 将 控制 权 移交 给 各 catch 子 句 。 
当然 ，e 作为 函数 外 的 变量 被 pop_static_object 创建 。 


在 try 子 句 、catch 子 句 的 末尾 都 要 生成 go_finally 指令 。 这 意味 着 
通过 在 一 个 函数 内 部 调用 子 例 程 的 方式 来 调用 finally”。 


* 这 个 机 制 模仿 了 JVM 的 指令 jsr 、return ， 但 是 在 现在 的 Java 中 并 没有 使 用 ， 而 是 将 finally 
子 句 的 代码 完全 展开 。 


在 Sun 的 错误 数据 库 (‘Bug Database) 中 的 4381996 号 错误 1 使 用 原来 
的 方式 时 ， 即 使 是 正确 的 代码 ， 验 证 器 也 会 报错 。 


1 地址， http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4381996。 一 一 译 者 注 


乍 看 之 下 ， 我 认为 不 需要 特意 增加 这 个 指令 ， 只 要 跳 转 到 第 14 行 就 可 以 
了 了。 但是， 正如 9.2.2 节 中 写 到 的 ， 即 使 在 try 子 句 中 进行 了 break 或 
者 return ，finally 子 句 也 必然 会 执行 。 因 此 ， 如 果 try 子 句 中 包含 
了 break ， 编 译 器 也 会 在 break 前 面 输出 go_finally 指令 。 执 

行 finally 子 句 后 ， 如 果 没 有 异 弟 状态 的 话 ， 就 会 执行 finally_end 
中 令 返回 到 原来 的 位 置 。 如 果 调 用 了 finally_end 后 不 能 返回 到 原来 
的 位 置 的 话 ， 束 会 执行 和 再 次 抛 出 异常 时 同样 的 动作 。 


go_finally 会 将 返回 的 目的 地 的 pc 入 栈 。 之 所 以 必须 要 使 用 栈 是 因为 
在 finally 中 也 可 以 编写 try 语句 。 



































9.2.6” 受 查 异 常 





Java 具 有 受 查 异常 的 功能 。 这 是 一 种 在 方法 声明 时 对 方法 可 能 抛 出 的 寞 
常 进行 声明 的 功能 “下面 这 段 代码 就 表明 了 “这 个 方法 有 抛 出 
HogeException 和 PiyoException 的 可 能 >) 。 


void hoge() throws HogeException, PiyoException { 


| 


这 样 一 来 ， 在 调用 上 面 的 hoge() 方法 的 时 候 ， 对 于 该 方法 的 调用 者 来 
说 ， 要 么 catch 所 有 已 经 被 声明 的 异常 ， 要 么 自己 也 通过 throws 抛 出 
这 些 异 常 ， 将 处 理 异 常 的 任务 交 给 自己 的 调用 者 。 如 果 你 什么 都 不 做 ， 
就 会 在 编译 时 报错 (除非 是 Error 或 者 RuntimeException 的 子 类 ) 。 
0 0 (至 少 是 以 此 
为 目标 ) 。 


正如 后 面 会 介绍 到 的 ， 对 于 这 个 功能 也 有 一 些 异 议 ， 但 我 认为 这 是 一 个 
重要 的 功能 ， 因 此 在 Diksam 中 也 进行 了 实现 。 


Diksam 中 受 查 异常 的 设计 和 Java 相 同 。 


首先 ， 要 让 函数 和 方法 能 够 描述 throws 子 句 。 
// 为 函数 添加 throws 


void func() throws HogeException, PiyoException { 





在 上 述 例子 中 ， 由 于 func() 已 经 声明 了 它 可 能 会 发 生 HogeException 
和 PiyoException ， 这 时 候 如 果 在 函数 内 发 生 了 上 述 两 个 异常 之 外 的 
异常 ， 并 且 又 没有 catch 的 话 ， 就 会 发 生 编译 错误 。 


但 是 ， 像 NullPointerException 这 样 的 在 程序 各 处 都 会 发 生 的 异常 
应 该 被 另行 处 理 。 在 Diksam 中 异 冲 的 层级 有 三 个 ， 它 们 分 别 

是 BugException 、RuntimeException 和 ApplicationException 。 
其 中 ， 只 有 ApplicationException 是 受 查 异常 检查 的 对 象 〈 图 9- 
8) 。 









RuntimeException 





BugException ApplicationException 


只 要 没有 程序 错误 程序 不 能 预期 的 异常 “应 该 被 程序 预期 到 的 异常 
就 不 会 发 生 的 异常 


图 9-8 Diksam 的 异常 层级 


例如 ， 引 用 了 null 的 时 候 会 发 生 NullPointerException ， 或 者 当 访 
问 的 元 素 超 出 了 数组 的 返回 时 会 发 

生 ArrayIndexOutofBoundsException ， 这 些 异 常 在 Diksam 中 都 被 归 
类 为 BugException 。 这 是 因为 这 些 异常 在 调试 结束 后 的 正式 应 用 程序 
中 是 不 应 该 发 生 的 (我 是 这 么 认为 的 ) 。 因 此 ，BugException 不 应 该 
被 catch 。 因 为 如 有 果 这 么 做 就 相当 于 在 “ 手 盖 程序 错误 ”。 


与 此 相对 ， 即 使 没有 程序 错误 也 可 能 发 生 RuntimeException ， 这 是 由 
于 在 写 程序 的 时 候 只 考虑 了 一 般 的 情况 ， 没 有 考虑 周全 ， 从 而 发 生 了 
(我 是 这 么 认为 的 ) 异常 。 在 Diksam 中 ， 整 数 被 0 除 也 被 归 为 这 类 异常 * 
。 这 样 的 异常 应 该 在 调用 的 层级 上 被 catch 并 进行 适当 地 人 处理。 


* 我 本 来 想 把 内 存 不 足 之 类 的 情况 也 加 入 到 异常 中 ， 但 是 在 现在 的 Diksam 实 现 中 ， 只 有 
在 MEM_malloc() 中 进行 exit() 的 时 候 才 会 抛 出 异常 ，MEM_malloc() 本 身 并 不 会 发 生 异 常 。 


ApplicationException 的 发 生 是 被 充分 预期 的 。 在 Diksam 中 ， 像 
NumberFormatException 这 样 的 异常 被 归 入 此 类 ””。 像 这 样 的 异常 一 
般 会 在 发 生 的 地 方 立即 由 应 用 程序 做 适当 地 处 理 。 


# 不 可 思议 的 是 ，Java 把 这 个 异常 归 类 为 RuntimeException 。 
































话说 回来 ， 由 于 在 Diksam 中 BugException “不 应 该 被 catch”， 因 此 ， 
还 是 “一 旦 catch 了 BugException 就 会 发 生 编 译 错误 ”容易 一 点 。 但 是 
现在 之 所 以 没有 这 么 做 ， 是 因为 考虑 到 了 像 Servlet 和 Applet 之 类 的 在 浏 
览 器 中 运行 的 程序 ， 即 使 其 中 一 个 Servlet 或 者 Applet 中 出 现 了 程序 错误 
也 不 应 该 导致 整个 程序 的 骨 尝 。 但 是 ， 在 将 来 也 可 能 会 引入 像 pragma 
这 样 的 功能 ， 也 许 到 了 那个 时 候 ， 除 了 特殊 的 程序 之 外 ， 再 catch 了 





BugException 的 话 ， 编 译 就 要 报错 了 。 





受 查 异常 的 实现 在 fix tree.c 中 进行 。 


Diksam 编 译 器 (在 fix_tree.c 中 ) 会 对 递归 分 析 树 “确认 ”( 请 参考 6.3.4 
节 ) 。 与 此 同时 ， 也 会 进行 受 查 异 第 的 检查 。 


在 递归 扫描 分 析 树 的 时 候 ， 在 递归 的 路 径 上 《也 惑 是 越 深 越 优先 ) 会 创 
建 语句 或 表达 式 下 级 可 能 会 及 生 的 腊 常 列表 。 此 时 ， 在 try 子 句 中 发 生 
的 异常 ， 除 了 会 锐 catch 子 句 捕 所 之 外 ， 剩 下 的 都 会 被 当做 是 try 语句 
发 生 的 异常 。 这 样 一 来 ， 在 函数 内 发 生 蜡 党 的 时 候 ， 没 有 声明 throws 
的 就 会 导致 编译 错误 。 


*# 详 细 来 说 就 是 ， 这 里 涵盖 了 在 catch 子 句 或 finally 子 句 中 发 生 的 异常 〈 含 通过 throw; 再 次 
抛 出 的 Exception) 。 


补充 知识 ” 受 查 异常 的 是 与 非 


在 Java 中 有 受 查 异常 ， 但 是 在 C# 中 没有 。C# 是 晚 于 Java 面 世 的 编程 语 
言 ， 因 此 很 多 地 方 都 模仿 了 Java， 所 以 可 以 断定 这 个 功能 是 有 意 补 剔除 
的 。 关 于 这 点 ，C# 的 作者 安 德 斯 -海尔 斯 伯 格 (Anders Hejlsberg) 例 举 
了 下 面 两 个 理由 (应 笔者 邀请 ) 。 




















The Trouble with Checked Exceptions HH 


。 方法 升级 的 时 候 throws 子 句 中 的 腊 常 可 能 也 会 随 之 增加 ， 这 样 就 
会 影响 所 有 的 使 用 者 。 实 际 上 ， 在 很 多 情况 下 ， 调 用 者 并 不 会 关心 
异常 的 种 类 ， 也 不 会 对 它们 做 个 别处 理 。 


在 扩展 性 上 存在 问题 。 受 查 异常 在 很 小 的 程序 中 可 以 顺利 运行 ， 但 
是 在 构建 有 4 个 到 5 个 子 系统 的 系统 时 ， 每 个 子 系统 又 返回 4~10 种 异 
党 的 话 。 在 多 个 了 系统 集成 的 时 候 就 不 得 不 在 throws 后 面 写 上 很 


另外 ， 在 下 一 页 中 ， 在 上 面 这 些 理由 的 基础 上 又 退 加 了 以 下 理由 《这 里 
也 是 应 笔者 邀请 ) 。 


《Java 理 论 与 实践 : 关于 异常 的 争论 要 检查 还 是 不 要 检查 》02 

















。 throws 子 句 暴露 了 实现 的 详细 内 容 。 如 果 在 “搜索 用 户 " 方 法 的 
throws 中 有 一 个 SQLException ， 这 可 不 是 一 件 好 事 。 


。 (只 要 是 有 受 查 寞 常 ) 使 用 者 编写 了 空 的 catch 子 句 ， 寞 常 也 会 外 
当做 处 理 掉 了 。 


上 面 说 了 这 么 多 的 问题 ， 其 实 可 以 通过 异常 包装 的 方式 来 应 对 。 以 “ 搜 
索 用 户 方法 "为 例 ， 应 该 抛 出 像 NosuchUserException 这 样 的 、 对 于 当 
前 方法 层级 有 意义 的 异常 。 从 而 ， 如 果 发 生 异 常 的 原因 

是 SQLException 的 话 ， 应 该 抛 出 一 个 以 成 员 形式 保存 了 
SQLException 的 NoSuchUserException 。 


这 个 机 制 ， 在 Javal.4 中 被 引入 ，C# 一 开始 也 有 这 样 的 功能 。 以 此 为 前 提 
的 话 ， 我 认为 受 查 异常 也 不 是 特别 “ 坏 ” 的 功能 ”。 

* 在 [12] 中 也 举 出 了 诸如 “异常 过 度 包装 ”之 类 的 缺点 ， 也 算是 表达 了 对 这 个 功能 的 不 满 。 

男 外 ， 在 受 查 异常 中 最 让 人 反感 的 就 是 ， 所 有 方法 都 只 写 一 句 throws 
Exception 。 对 于 这 点 ， 虽 然 编程 语言 支持 这 么 做 ， 但 是 在 不 需要 使 用 
受 查 异常 的 时 候 还 是 不 用 为 好 。 至 于 在 Diksam 中 如 何人 使用， 就 交 给 使 用 
者 来 选择 了 。 

补充 知识 ”异常 处 理 本 身 的 是 与 非 

既然 说 到 了 受 查 异常 的 是 与 非 ， 让 我 们 再 来 看 看 关于 异常 处 理 的 两 派 的 


论调 。 


在 一 本 叫 作 Joel on Software 〈 很 有 名 ) 的 书 中 ， 作 者 Joel Spolsky 关 于 异 
党 的 论述 如 下 〔 拙 译 ) : 



































Exceptions [13] 


。 在 源 代码 中 很 难看 到 寞 常 。 因 为 不 知道 哪里 会 发 生 寞 常 ， 所 以 即使 
很 续 密 地 检查 了 代码 ， 还 是 很 难 发 现 其 中 的 错误 。 


。 弄 常 赋予 了 程序 多 个 “出 口 。 在 编写 正确 的 代码 中 ， 程 序 一 定 能 够 
掌握 执行 的 路 径 ， 但 是 加 入 了 寞 第 后 这 件 事 束 办 不 到 了 。 











Windows 的 开发 者 Raymond Chen 把 异常 和 早先 在 返回 值 中 返回 错误 编码 
的 方式 做 了 比较 ， 请 见 表 9-1 和 表 9-214 ( 拙 译 )。 


表 9-1 错误 编码 和 异常 的 比较 1 


ee 错误 编码 编写 出 良好 的 代 |e 使 用 异常 编写 出 良好 的 代 
异常 编写 出 不 好 的 代码 | 码 




































































表 9-2 错误 编码 和 异常 的 比较 2 











识 到 使 用 异常 编写 出 隐 雇 
e 认识 到 使 用 错误 编码 编写 出 了 八 懂 的 代码 
星 深 难 懂 的 代码 e 认识 到 使 用 错误 编码 编 |e 使 用 寞 常 编写 出 来 的 ， 能 够 分 
e 使 用 错误 编码 编写 的 ， 能 够 分 | 写 出 了 通顺 易 懂 的 代码 ”| 辨 出 不 好 的 代码 和 良好 的 代码 
辨 出 不 好 的 代码 和 民 好 的 代码 de eh 























































































































下 面 残 举 一 个 实际 的 例子 。 


NotifyIcon CreateNotifyIcon() 
:{ 
: NotifyIcon icon = new NotifyIcon(); 
icon.Text = "Blah blah blah"; 
icon.Visible = true; 


icon.Icon = new Icon(GetType(), "cool.ico"); 
return icon; 


CONQNOUWUWPUWUDOPp 


DD 





这 上 段 程序 本 来 应 该 将 第 5 行 和 第 6 行 反 过 来 写 。 这 是 因为 在 图 标 创 建 失败 
的 时 候 ， 第 6 行 会 发 生 异 常 ， 此 时 就 没有 必要 把 icon.Visible 设 置 为 true 了 


O 


* 实 际 试 一 下 的 话 ， 在 我 的 环境 中 没有 发 生 什么 特别 的 问题 。 


可 能 上 述 这 个 Windows 编 程 的 经 验 之 谈 不 太 好 理解 ， 我 再 〈 要 举 的 话 还 
有 很 多 呢 ) 举 一 个 其 他 的 例子 。 在 构建 树 结 构 的 时 候 ， 给 父 增加 子 的 代 








node.children = new Node[5]; 
for (i = 6; i < 5; i++) { 


mode.children[i] = new Node(); 


} 





在 这 段 代 码 中 ， 如 果 前 三 次 循环 都 正常 地 执行 、 第 四 次 的 时 候 发 生 了 异 
党 的 话 ， 数 组 node.children 束 会 从 中 间 开 始 变 成 hull 。 从 数据 结构 
上 讲 ， 这 种 情况 大 多 是 不 被 允许 的 。 在 这 种 情况 下 ， 即 便 是 在 上 层 的 某 
处 捕获 到 了 异常 也 很 难 修复 这 个 错误 。 为 了 避免 这 种 情况 的 发 生 ， 应 该 
像 下 面 这 样 编写 代码 ”。 


* 这 里 假设 node.children 的 值 为 null 。 





Node[] nodeArray = new Node[5]; 
for (i = 6ji< 5; i++) { 
nodeArray[i] = new Node(); 


node.children = nodeArray; 





但 是 ， 如 何 能 够 在 程序 的 所 有 地 方 都 防止 这 样 的 错误 发 生 呢 ? 


结果 ， 话 题 还 是 回 到 是 不 是 应 该 存在 异常 处 理 机 制 的 问题 上 。 当 然 ， 完 
美的 异常 处 理 是 非常 困难 的 。 但 是 ， 现 实 中 在 对 信任 关系 的 要 求 没 有 那 
么 严格 ， 使 用 异常 处 理 还 可 以 准确 地 将 错误 传递 给 上 层 的 情况 下 ， 我 认 
为 异常 处 理 机 制 还 是 有 必要 的 。 


* 不 管 怎么 说 ， 利 用 返回 值 进行 手工 处 理 的 方式 是 行 不 通 的 。 之 所 以 这 么 说 是 因为 ， 我 不 相信 人 
类 (当然 包括 我 自己 )。 


对 于 编写 一 个 将 许多 数据 搜集 起 来 并 每 日 打印 一 次 的 小 脚本 来 六 ， 姑 
常 可 真是 个 好 东西 ， 它 可 以 忽略 挥 所 有 会 引起 问题 的 地 方 。 我 非常 喜 
欢 做 的 就 是 ， 利 用 try/catch 整理 程序 ， 并 在 发 生 异 常 的 时 候 将 问题 
通过 邮件 发 给 我 。 但 古 异 和 常 只 适合 一 些 粗略 的 工作 或 者 脚本 ， 并 不 适 
合 关 键 性 的 任务 和 与 维持 生命 相关 的 程序 。 假 如 在 操作 系统 、 核 能 发 
电 或 者 心脏 手术 中 使 用 的 高 速 旋转 骨 锯 的 控制 软件 中 使 用 腊 第 的 话 ， 
是 相当 危险 的 事情 。 
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9.3 构建 脚本 


在 3.3.5 节 中 我 们 已 经 接触 过 了 ， 我 认为 编程 语言 的 处 理 器 应 该 尺 可 能 让 
程序 通过 一 个 可 执行 文件 就 可 以 运行 。 任 何 一 种 语言 ， 在 其 制作 的 初期 
都 是 个 不 成 熟 的 语言 ， 因 此 不 可 能 在 一 开始 安装 的 时 候 就 让 人 有 所 期 
待 。 男 外 ， 在 别人 试用 语言 的 时 候 ， 要 花费 很 多 时 间 进 行 高 门槛 的 安装 
过 程 可 不 是 一 个 好 主意 。 

在 代码 清单 9-7 中 例 举 的 异常 类 程序 ， 在 crowbar 中 编写 的 话 就 非常 简单 
了 ， 但 是 要 在 C 语 言 中 编写 的 话 我 想 可 能 要 花 不 少 的 功夫 。 因 此 ， 我 们 
0 
法 。 


另外 ， 虽 然 Diksam 中 以 外 部 文件 的 形式 保存 痢 现 在 的 diksam.lang 包 
的 源 代 码 ， 但 我 还 是 想 要 把 它 打 包 到 可 执行 文件 中 去 。 


在 这 里 让 我 们 研究 二 个 这 人 小 方 法; 

9.3.1 基本 思路 

首先 先 来 研究 一 下 crowbar。 

想法 很 简单 ， 比 如 下 面 这 段 crcowbar 代 码 builtin.crb: 


function create exception class(parent) { 
this = new object(); 
this.parent = parent; 


























this.create = closure(message) { 
(之 后 省 略 ) 




















基于 上 面 这 段 代 码 ， 生 成 了 下 面 的 C 代 码 。 也 就 是 说 ，crowbar 的 代码 被 
作为 C 语 言 的 字符 串 保存 起 来 。 


#include “stdio.hy> 
#include "CRB.h" 





static char *st builtin src[] = { 
"function create exception class(parent) {\n", 
this = new_ object();\n", 
this.parent = parent;\n", 
this.create = closure(message) {\n", 
〈 之 后 省 略 ) 




















之 后 再 进行 编译 、 链 接 、 执 行 的 时 候 ， 在 加 载 使 用 者 指定 的 crowbar 源 
代码 之 前 ， 先 编译 这 上 段 字 符 串 就 可 以 了 。 


另外 ， 将 builtin.crb 转 换 成 为 C 语 言 代码 的 程序 是 在 crowbar 中 编写 的 。 


当然 ， 这 段 程 序 必 须要 在 编译 crowbar 的 过 程 中 。 为 了 在 编译 crowbar 的 





过 程 中 能 让 crowbar 运 行 起 来 ， 我 又 制作 了 没有 组 建构 建 脚 本 状态 
的 “minicrowbar 可 执行 文件 ， 并 且 利 用 minicrowbar 来 完成 转换 工作 。 


也 不 是 特意 要 做 这 样 细 致 的 工作 ， 而 是 我 觉得 用 C 语 言 写 这 种 字符 串 转 
换 程序 不 太 好 。 在 我 的 意识 中 ，crowbar 作 为 一 门 以 Pen 为 目标 的 语言 ， 
确实 还 是 应 该 在 crowbar 中 进行 字符 串 处 理 。 这 也 是 为 什么 我 要 尝试 着 
去 这 么 做 的 原因 。 





9.3.2 YY_INPUT 





保存 在 C 语 言 字符 串 和 常量 中 的 crowbar 人 代码， 会 在 使 用 者 编写 的 程序 之 前 
进行 编译 。 


制作 crowbar 的 时 候 ， 编 译 采 用 了 yacc 和 lex 协 同 作 业 的 方式 。 因 此 ， 最 
先 加 载 源 代码 的 是 lex〈 生 成 的 程序 ) 。lex (生成 的 程序 ) 在 默认 状态 
下 将 从 全 局 变量 yyin 的 文件 指针 中 加 载 源 代码 〈 如 代码 清单 2-2) 。 


但 是 ， 这 次 不 是 从 文件 中 加 载 ， 而 是 加 载 内 存 中 的 字符 串 。 在 这 种 情况 
下 ，flex 会 使 用 宏 YY_INPUT (但 是 ， 这 个 宏 的 移植 性 未 必 很 品 )。 


像 下 面 这 样 ， 通 过 蔡 换 YY_INPUT 的 定义 ， 可 将 fle 的 标准 的 输入 例 程 蔡 
换 为 单独 的 输入 例 程 。 











/* crowbar.1 的 开头 */ 
#undef YY_INPUT 
#define YY_INPUT(buf, result, max_size)(result = my yyinput(buf, max_size)) 


| 


答 入 例 程 要 接收 缓冲 和 缓冲 大 小 (fgets() 流 ) 两 个 参数 ， 缓 冲 中 存 入 
字符 串 并 返回 该 字符 串 的 字数 。 缓 冲 必须 以 0 结尾 。 


crowbar 的 my_yyinput() 引用 了 当前 解释 器 的 “输入 模式 ”， 在 

有 CRB_FILE_INPUT_MODE 的 情况 下 从 文件 中 输入 ， 在 

有 CRB_STRING_INPUT_MODE 的 情况 下 从 字符 串 输 入 。 这 个 “和 输入 模 
式 ” 保 存在 CRB_Interpreter 中 。 


构建 脚本 将 在 创建 CRB_Interpreter 的 时 候 进 行 编 译 。 在 这 之 后 ， 将 
使 用 同一 个 解释 器 编译 用 户 程序 ， 此 时 为 了 能 够 让 用 户 程序 发 生 错 误 时 
显示 正确 的 行 号 ， 解 释 器 中 保存 的 行 号 会 被 重 置 为 1。 

9.3.3 Diksam 的 构建 脚本 


在 Diksam 的 book_ver.0.3 中 ，diksam.1lang 是 以 外 部 文件 的 形式 存在 
J 单独 的 可 执行 文件 没 办 法 运行 。 这 对 于 构建 脚本 来 说 的 确 不 太 方 
更 。 


虽然 Diksam 的 程序 可 以 由 多 个 文件 组 成 ， 但 是 基本 思路 还 是 和 crowbar 
一 样 





构建 脚本 并 没有 在 文件 系统 中 保存 源 文 件 的 实体 ， 因 此 ， 会 在 源 文 件 的 
搜索 路 径 DKM_REQUIRE_SEARCH_PATH 、DKM_LOAD_SEARCH_PATH 的 开 
头 默 认 添加 上 。 


另外 ， 和 这 个 修改 一 并 完成 的 ， 还 有 使 用 者 即使 不 显 式 require 标准 
包 diksam.1lang ， 它 也 会 被 默认 require 进来 。 


9.3.4 三 次 加 载 /链接 


在 之 前 的 Diksam 中 ，push_function 、new 等 指令 的 操作 数 是 函数 和 
类 的 索引 值 ， 它 们 通过 以 下 方法 取 值 ! (在 8.1.5 节 中 已 经 介绍 过 ) 。 


1 在 不 同 的 阶段 中 取 值 也 不 同 。 





译 者 注 


5 将 每 个 DVM_Executable 中 国有 的 索引 值 作为 操作 





。 在 癌 DVM 中 加 载 的 时 候 ， 将 字 节 人 码 中 的 对 应 位 置 蔡 换 
为 DVM _ VirtualMachine 中 国有 的 索引 值 。 


在 这 种 方法 中 ， 一 个 DVM_Executable 被 特 化 到 一 个 DVM 中 ， 因 此 在 
多 个 DVM 中 不 能 共享 DVM_Executable。 


可 能 有 人 会 问 了 :“ 当 初 为 什么 要 创建 多 个 DYM 呢 ?” 例 如， 在 Web 应 用 
中 ， 一 台 服 务 器 上 很 可 能 运行 着 多 个 应 用 程序 ， 在 这 种 情况 下 ， 不 是 应 
该 为 每 个 应 用 程序 分 别 分 配 不 同 的 DVM 吗 ?再 举 一 个 其 他 的 例子 ， 在 
用 Diksam 编 写 Diksam 的 集成 开发 环境 (IDE) 的 情况 下 ， 驱 动 IDE 的 
人 也 应 该 是 两 个 
\ 同 的 DVM。 


因此 ， 这 次 我 们 引入 了 间接 引用 对 照 表 ， 通 过 它 就 可 以 不 用 再 替换 字 节 
码 中 国 数 和 类 的 索引 值 了 。 间 接 引 用 对 照 表 保 存在 ExecutableEntry 
中 ， 在 加 载 的 时 候 创建 。 


struct ExecutableEntry tag { 
DVM Executable *executable; 
int *function table; “函数 的 间接 引用 
int *class_ table; < 类 的 间接 引用 
int *enum table; < 枚 举 的 间接 引用 
















































































int *constant_table; < 常量 的 间接 引用 
Static static v; 
struct ExecutableEntry tag *next; 











并 且 ， 按 说 在 加 载 时 局 部 变量 的 亿 移 量 也 要 进行 字 节 码 的 蔡 换 ， 但 是 这 
次 并 没有 修改 。 这 里 说 的 玲 换 通常 在 同样 的 机 费 上 运行 的 DVM 中 ， 也 
会 出 现 相同 的 结 


9.4 为 crowbar3 引 入 多 车 
crowbar 名 字 是 由 “ 像 Perl 一 样 的 语言 "而 来 的 。 


近 些 年 来 ，Perl 被 应 用 在 了 各 个 领域 中 ， 但 是 早期 的 Perl 只 是 用 来 处 理 
文本 文件 的 。 说 起 处 理 文本 文件 ， 最 方便 的 英 过 于 正则 表达 式 了 。 


但 是 想 要 从 零 开 始 制 作 一 个 正则 表达 式 引 擎 的 话 太 困难 了 ， 因 此 我 们 引 
入 现 有 的 正则 表达 式 程 序 库 “ 鬼 车 ”。 


9.4.1 关于 “多 车 ” 
“ 鬼 车 ?是 小 迫 先生 开发 的 正则 表达 式 程序 库 。 
官方 网 站 《英语 ) : 








http:/www.geocities.jp/kosako3/oniguruma/ 


在 写作 本 书 的 时 候 最 新 版 本 为 5.9.11 ，UNIX ( 含 Mac 操 作 系 统 ) 和 
Windows 都 可 以 安装 。 许 可 类 型 为 BSD 许 可 ， 标 明 著 作 权 、 许 可 条 文 和 
免责 条 款 后 ， 可 以 在 自制 软件 中 《可 以 不 开放 源 代 码 ) 上 自由 使 用 。 


“现在 最 新 版 本 是 5.9.4。 一 -一 译 者 注 


因为 使 用 了 这 个 程序 库 ， 所 以 可 以 简单 地 将 正则 表达 式 引 入 到 crowbar 
中 。 在 这 里 要 感谢 开发 者 小 迫 先生 。 


具体 的 安装 方法 和 程序 库 的 使 用 方法 ， 考 碟 到 很 有 可 能 会 发 生变 化 ， 请 
大 家 直接 参考 网 站 的 内 容 。 


http://avnpc.com/pages/devlang#oniguruma 


9.4.2 ”正则 表达 式 香 量 


在 编程 语言 中 处 理 正 则 表达 式 的 时 候 ， 问 题 在 于 要 将 正则 表达 式 特 化 到 
什么 程度 。 


在 Perl 的 语言 设计 上 ， 专 门 针 对 正则 表达 式 进 行 了 优化 。 无 论 s/// 
、m/// 还 是 s///g 亦 或 =~， 这 些 在 我 看 来 都 太 僵 化 了 。 对 于 在 AWK 级 
别 中 对 文本 处 理 进 行 特 化 的 语言 来 说 ， 这 样 也 许 很 好 ， 但 是 我 不 想 让 
crowbar 变 成 这 样 。 











反之 在 Java 和 PHP 中 并 没有 直接 文 持 正则 表达 式 ， 而 是 用 程序 库 的 方式 
文 持 正 则 表达 式 。 也 许 有 人 会 想 ， 这 么 做 也 还 行 吧 。 在 这 种 情况 下 ， 如 
打 只 使 用 单纯 的 字符 溃 来 表现 正则 表达 陈 的 话 ， 在 字符 串 种 量 中 可 能 会 
含有 特殊 含义 的 字符 ， 因 此 不 得 不 进行 编码 处 理 。 字 符 串 常量 包含 的 特 
殊 含义 的 字符 ， 很 有 可 能 在 正则 表达 式 中 也 具有 特殊 的 含义 。 为 了 使 用 
这 样 的 字符 ， 在 正在 表达 式 中 还 要 进行 编码 ， 即 必须 要 进行 双重 编码 。 
因此 ， 例 如 Java 中 匹配 \ 的 正则 表达 式 必须 要 写成 \\\\ 。 这 让 人 感觉 很 


愚蠢 。 


不 知道 是 不 是 为 了 解决 这 个 问题 ， 在 Python 中 引入 了 raw string 的 概念 。 
在 Python 中 ， 


r" 字 符 串 " 


这 样 在 字符 串 前 面 加 上 r 的 话 ， 在 这 个 字符 串 中 像 \ 这 样 的 字符 将 不 再 具 
有 特殊 含义 。 如 此 一 来 ， 匹 配 \ 的 正则 表达 式 只 要 写成 \\ 就 可 以 了 。 在 
C# 中 加 上 了 @ 的 字符 串 《〈 逐 字 字 符 串 : verbatim string literal) 能 达到 同 
样 的 效果 。 


但 是 ， 如 果 \ 没有 特殊 含义 的 话 ， 字 人 符 捉 常 量 中 出 现 了 " 的 时 候 该 怎么 


办 呢 ? 




















Python 的 使 用 手册 161 中 写 道 : 


引号 可 以 用 反 斜 杠 进行 编码 ， 但 是 这 样 一 来 反 斜 杠 本 身 就 成 了 遗留 问 
题 。 例 如 ，r"\"" 是 正确 的 字符 串 常量 ， 说 明 由 反 斜 村 和 双 引 号 组 成 
了 一 个 字符 串 ， 而 r"\" 则 是 错误 的 字符 串 常量 Craw 字 符 串 不 能 以 反 
斜 村 和 连续 奇数 个 字符 串 结尾 ) 。 严 格 地 说 ， (因为 反 斜 杠 会 编码 跟 
在 它 后 面 的 引号 ) raw 字 符 串 不 能 以 单个 反 斜 杠 结束 。 


在 我 看 来 ， 这 是 一 种 招致 混乱 的 设计 (顺便 说 一 下 ，C# 的 逐 字 字符 串 玉 
Oe 这 种 设计 与 Pascal 相 
以 ) 。 


男 外 ， 如 果 想 要 局 效 地 解释 正则 表达 式 ， 束 必须 要 进行 事先 编译 。 但 
是 ， 对 于 使 用 者 (crowbar 程 序 员 〉 来 说 ， 每 次 都 编译 十 分 抹 烦 。 在 大 
多 数 的 程序 中 ， 正 则 表达 式 都 不 是 在 运行 时 组 合 而 成 的 ， 因 此 可 以 在 编 




















译 源 代码 的 同时 编译 正则 表达 式 。 这 样 一 来 ， 作 为 一 门 编程 语言 来 说 ， 
它 就 需要 一 种 表现 “正则 表达 式 常量 "的 格式 。 


在 Ruby 中 ， 通 过 %! 字符 串 ! 的 方式 可 以 实现 跟 Python 的 raw string 一 样 的 
效果 。 与 Python 不 同 的 是 ，! 可 以 是 任意 字符 串 。 这 种 方法 中 ， 只 要 使 
用 字符 串 常量 中 没有 的 字符 把 字符 串 包 起 来 即 可 ， 也 很 好 地 回避 了 
Python 中 出 现 的 问题 。 另 外 ， | 的 方式 可 
以 表示 一 个 正则 表达 式 常 量 ， 使 用 这 种 方式 定义 的 常量 ， 可 以 在 编译 时 
先 编译 正则 表达 式 。 但 在 crowbar 中 ， % 会 被 当做 模 运算 符 来 使 用 ， 也 充 
分 考虑 到 了 【运算 符 左右 两 边 不 需要 输入 空格 ) 像 a%r+3 这 样 的 程序 。 


从 而 在 crowbar 中 ， 采 用 了 %%r "正则 表达 式 " 的 格式 。 和 Ruby 一 样 ，%%r 
后 面 可 以 是 任意 的 字符 。 也 就 是 说 ，%%r"hoge" 和 %%r!hoge! 两 种 写 
法 达到 的 效果 是 相同 的 。 


但 是 实际 上 ， 这 样 的 语法 一 旦 用 多 了 ， 残 会 出 现 各 种 各 样 的 符 写 (用 来 
定义 正则 表达 式 ) ， 看 上 去 就 不 那么 美观 了 。 


9.4.3 ”正则 表达 去 的 相关 函数 
crowbar 中 与 正则 表达 式 相 关 的 函数 如 下 所 示 。 
e。 reg match(regexp, subject, region); 


对 字符 串 subject (ee 进行 匹配 ， 如 果 匹 配 返 
回 true ， 不 匹配 则 返回 false 。 


本 ， 也 可 以 传 入 一 个 使 用 new_object() 创建 的 对 

















在 region 中 会 返回 string 、begin 、end 三 个 数组 成 员 。 例 如 正 
则 表达 式 “hoge(.*)piyo”，string[6] 中 保存 着 与 表达 式 全 部 罗 
配 的 字符 串 ，string[1] 中 保存 着 与 ^\1” es ee 
(.*) 部 分 ) 匹配 的 字符 串 。start 、end 返回 string[n] 开始 和 
结束 位 置 +T1《〈 这 个 设计 是 照搬 多 车 的 ) 。 


e reg replace(regexp, replacement, subject); 


9.5 


在 字符 串 subJject 中 ， 将 匹配 正则 表达 式 regexp 的 部 分 蔡 换 为 字 
符 串 replacement ， 并 返回 蔡 换 后 的 字符 串 。 如 果 有 多 个 位 置 匹 
配 ， 则 蔡 换 第 一 个 匹配 的 位 置 。 


reg_replace all(regexp, replacement, subject); 


在 字符 串 subJject 中 ， 将 匹配 正则 表达 式 regexp 的 部 分 蔡 换 为 字 
符 串 replacement ， 并 返回 蔡 换 后 的 字符 串 。 蔡 换 针 对 所 有 匹配 
的 位 置 进行 。 


包括 reg_replace() 在 内 ， 在 replacement 中 可 以 使 用 回溯 引用 
，Freplacement 的 类 型 只 能 是 字符 串 。 但 我 想 ， 给 
reg_replace() 传递 的 \1 是 不 是 必须 要 写成 \\1 呢 ? 实际 上 在 
crowbar 中 ,含有 \n (换行 符 ) 和 Nt ( 制 表 符 〉 的 字符 串 常量 需 要 
特殊 处 理 ， 因 为 在 crowbar 中 没有 将 \825 、 和 \x5c 之 类 的 八进制 或 
者 十 六 进 制 的 数值 租 入 到 字符 串 中 《C 语 言 中 有 ) 的 功能 ， 所 以 
将 \1 写 为 \1 也 是 没有 问题 的 〈 看 到 这 肯定 会 有 人 问 我 : ” 那 前 面 那 
节 的 讨论 还 有 什么 意义 呢 ?“) 。 


一 一 虽然 可 能 有 人 会 认为 以 后 使 用 这 种 设计 比较 好 ， 但 是 我 认为 现 
在 这 样 也 没什么 问题 。 











Feg_splLit(regexp，subJject ) ; 


用 regexp 分 割 字 符 串 subject ， 返 回 分 割 后 的 字符 串 数 组 。 


其 他 


9.5.1 _ foreach 和 迭代 需 〈crowbar) 





在 9.1.3 节 的 注解 中 写 道 : “但 是 ， 在 crowbar 的 标准 中 ， 并 不 是 引 

入 foreach 函数 ， 而 是 引入 foreach 语法 。” 如 前 面 所 述 ， 有 了 闭 包 ， 
即使 语言 本 身 不 文 持 ， 也 可 以 进行 类 似 foreach 的 实现 。 但 在 crowbar 
的 闭 包 中 ， 不 能 使 用 break 、continue 、while 等 语句 ”， 因 此 ， 
crowbar 中 支持 了 foreach 。 


*# 如 果 使 用 Java 提 出 的 闭 包 unrestricted closure， 就 可 以 实现 break 或 者 continue 。 


crowbar 的 foreach 的 使 用 方法 如 下 所 示 。 


a = {1, 2，3，4，25， 6}; 


foreach(v : a) { 


print("(" + V+")"); 





foreach 的 语法 根据 语言 而 异 ， 比 如 在 C# 中 是 这 样 的 。 


foreach(Object o in hogeCollection)t{ 
// 处 理 
} 








Java 中 虽然 没有 foreach ， 但 是 对 for 语句 进行 了 扩展 ， 使 用 方法 如 
和 


for(Object o : hogeCollection){ 
// 使 用 o 进 行 处 理 


























} 





crowbar 中 的 foreach 结合 了 上 面 两 种 语言 的 特点 。 这 么 做 的 原因 ， 首 
先是 如 果 没 有 foreach 语 名 的话， 那么 程序 员 之 间 就 没 办 法 在 交流 的 时 
候 说 “这 里 用 foreach 转 一 下 ”。 可 话 虽 如 此 ， 但 是 像 C# 这 样 将 in 之 类 
的 又 短 又 经 常会 被 用 到 的 单词 作为 关键 字 ， 总 觉得 有 一 些 不 安 。 


在 上 面 的 例子 中 ， 使 用 foreach 轮 询 了 一 个 数组 ， 这 是 因为 数组 具有 和 迭 
代 器 (iterator〉 的 所 有 方法 。 


crowbar 中 的 迭代 器 采用 了 GoF 的 风格 ， 具 有 以 下 这 些 方法 。 


*GoF 是 “Gang of Four 的 简称 。《 面 向 对 象 的 设计 模式 》 的 四 位 作者 组 成 了 四 人 组 ， 被 业界 称 
为 “四人帮 ”。 他 们 的 书 也 被 称 为 GoF 的 书 。 






































e first() 
返回 迭代 器 中 的 第 一 个 元 素 。 
e next() 


将 达 代 器 的 指 辣 疝 后 移动 一 个 。 

e is done() 
迭代 响 移 动 到 超出 最 后 一 个 元 素 的 位 置 时 返回 true ， 人 否则 返回 
false 。 

e current item() 


返回 迭代 器 中 当前 的 元 丸 。 


习惯 了 Java 的 人 可 能 会 沉 得 这 样 的 设计 和 记忆 中 的 不 太一 致 ， 这 是 因为 
Java 的 碗 代 右 指 癌 数组 的 元 系 和 元 取 之 间 。 调 用 next() 的 时 候 ， 达 代 
虱 移 动 到 下 一 个 “元 素 和 元 素 之 间 ”， 此 时 返回 的 是 它 跨 过 的 那个 元 系 。 


与 此 相对 ，crowbar 的 迭代 器 (GoF 风 格 ) 是 直接 指 同 元 素 的 。 因 此 ， 使 
用 current_item() 方法 可 以 取得 当前 元 素 ， 只 要 不 调用 next() ， 无 
论调 用 几 次 current_item() ， 返 回 的 都 是 同样 的 元 素 。 


至 于 哪 种 设计 方式 更 好 ， 肯 定 会 有 各 种 不 同 的 意见 。 但 是 我 觉得 Java 设 
计 对 于 我 来 说 很 不 好 用 《只 是 “看 一 下 ”这 个 元 系 ， 友 代 需 就 移动 到 下 一 
个 元 素 了 ) ， 因 此 ， 这 里 使 用 了 GoF 风 格 的 设计 方式 。 


虽然 是 这 么 说 ， 但 取得 数组 的 迭代 器 的 方法 如 果 是 GoF 风 格 的 话 ， 
本 应 叫 作 CreateIterator() ， 可 这 个 名 字 实 在 是 太 长 了 ， 因 此 叫 
人 0 
风格 统一 。 


数组 迭代 器 的 实现 如 下 所 示 。 create _array_ iterator() 是 创建 迭 
代 器 用 的 隐藏 函数 ， 被 记录 在 构建 脚本 中 。 数 组 的 iterator() 方法 所 
返回 的 从 代 器 就 是 调用 这 个 函数 取得 的 。 


























function _create array_iterator(array) { 
this = new object(); 
index = 60; 
this.first = closure() { 
index = 0; 


2 
this.next = closure() { 
index++; 
}; 
this.is done = closure() { 
return index >= array.sizel(); 
}; 


2 
this.current item = closure() { 


return array[index]; 


}; 


return this; 





9.5.2 ”Switch case(Diksam) 


本 节 将 为 Diksam 引 入 switch case 。 





switch case 语句 在 C、Java、C# 等 语言 中 都 存在 ， 但 是 C 中 的 switch 
case 却 很 不 像 话 ， 里 面 并 不 能 写 break 语句 ， 也 就 是 说 ，switch 
case 每 次 都 要 从 上 至 下 一 直 执行 到 结束 。Java 在 这 点 上 也 是 一 样 。C# 
的 语法 结构 看 上 去 和 C 一 样 ， 但 是 如 果 在 case 的 末尾 不 加 上 break 的 话 
就 会 发 生 编译 错误 。 这 种 设计 方式 正好 解决 了 这 个 问题 * 。 此 处 贯彻 了 
让 习惯 了 C 和 Java 的 程序 员 容 易 上 手 的 宗 骨 ， 在 这 点 上 Diksam 做 了 很 多 
妥协 。 但 是 在 这 个 问题 上 如 果 去 迎合 C 语 言 的 话 ， 就 不 太 符合 我 的 审美 
观 了 。 话 说 回来 ，Diksam 中 是 这 样 进行 switch case 的 。 


* 如 果 在 case 后 面 没 有 任何 语句 (只 有 case ) 的 情况 下 ， 可 以 省 略 break 。 
































switch(a) 
case 1 1{ 
// a 等 于 1 时 执行 
} case 2,3 { 
// a 等 于 2 或 3 时 执行 
} case 4{ 


// a 等 于 4 时 执行 
} default { 
// a 不 等 于 上 面 的 1、2、3、4 时 执行 





} 








并 且 ，Diksam 的 switch case 在 原则 上 只 要 是 能 通过 == 进行 比较 的 ， 
就 都 可 以 通过 switch 表达 式 〈 上 例 中 的 a ) 和 case 表达 式 〈 区 别 在 于 
在 == 的 时 候 会 发 生 类 型 转换 ，switch 的 时 候 不 会 发 生 ) 。 因 此 ， 字 符 
串 等 类 型 也 可 以 使 用 switch case 。 





9.5.3 enum (Diksam ) 


Diksam 中 也 同样 引入 了 枚 举 类 型 (enumerated type) 。 


enum Fruits { 
APPLE, 
ORANGE,, 


BANANA 





有 了 上 面 的 定义 ， 就 可 以 使 用 Fruits.APPLE 、Fruits .ORANGE 
、Fruits .BANANA 的 枚 举 (enumerator) 了 。 


Diksam 的 枚 举 类 型 内 部 保存 的 是 从 0 开始 顺序 编号 的 int ， 但 是 并 不 能 
作为 int 类 型 进行 四 则 运算 、 赋 值 给 int 类 型 以 及 与 int 类 型 进行 比较 运 
算 ， 只 能 够 在 同一 枚 举 类 之 间 比 较 〈 这 些 功 能 可 能 经 常会 被 用 到 ， 因 此 
这 里 策略 性 地 破坏 了 美感 ， 但 可 以 比较 大 小 ) 。 


另外 ， 在 用 + 连接 左边 的 字符 串 时 ， 枚 举 类 型 会 转换 为 字符 串 类 型 。 


Fruits f = Fruits .ORANGE; 


println("f.." + 下 ); // 输出 "f. .ORANGE" 





如 果 没 有 这 个 设计 的 话 ， 枚 举 在 编译 的 时 候 就 可 以 转换 为 整数 类 型 了 
(现在 的 Diksam 还 不 能 将 字 节 码 保存 为 文件 ) 。 为 了 将 枚 举 作 为 字符 串 
输出 ， 必 须要 把 对 应 的 字符 串 保存 在 DVM_Executable 中 。 男 外 ， 还 必 
须要 和 其 他 源 文件 进行 链接 。 为 了 达到 这 个 目的 ， 

在 ExecutableEntry 中 与 函数 和 类 一 样 保存 了 一 份 转换 对 应 表 〈 请 参 
考 9.3.4 节 ) 。 





9.5.4 delegate (Diksam) 
在 Diksam 的 语法 规则 中 ， 函 数 调 用 是 下 面 这 样 的 。 


primary_expression LP argument list RP 


也 就 是 说 ， 函 数 调用 表达 式 是 在 表达 式 后 面 加 上 括 写 并 且 里 面 括 关 参 








数 。 如 果 要 把 语法 规则 变 成 下 面 这 样 的 话 ， 实 际 上 简单 了 不 少 。 


IDENTIFIER LP argument list RP 


如 琳 变 成 了 上 面 这 样 ， 当 然 ， 是 为 了 实现 在 类 似 于 C 的 语言 中 所 说 的 函 
数 指针 。 例 如 为 GUI 的 按钮 分 配 处 理 的 时 候 ， 在 Java 中 要 创建 一 个 实现 
了 特定 接口 的 类 的 实例 (事件 监听 占 〉， 并 将 它 设 置 到 按钮 中 。 这 种 方 
法 存在 以 下 的 问题 : 


。 需要 为 此 特意 去 定义 一 个 类 ， 不 仅 麻 烦 也 会 使 代码 变 得 见长 。 
按 下 按钮 时 ， 处 理会 被 编写 在 别 的 类 里 面 ， 对 于 这 个 类 来 说 等 于 放 
宽 了 类 的 封 逆 。 昌 然 使 用 内 部 类 可 以 解决 这 个 问题 ,但 也 因此 又 币 


来 了 内 部 类 的 使 用 问题 。( 对 于 实现 语言 的 人 来 说 ) 这 个 方法 太 麻 
烦 了 ， 而 且 对 于 初学 者 来 说 也 不 太 容 易 掌 握 。 


。 在 按 下 按钮 的 时 候 ， 事 件 也 可 以 由 承载 了 按钮 的 类 (JFrame 等 ) 


接收 。 如 果 使 用 了 这 种 处 理 方式 ， 在 这 个 类 中 有 两 个 按钮 的 话 ， 区 
无 法 为 它们 分 配 单独 的 动作 。 


因为 只 是 “ 想 要 执行 按 下 按钮 时 的 处 理 *?”， 所 以 很 白 然 地 就 会 想到 ， 如 果 
能 只 录 陆 描述 了 处 理 的 函数 就 好 了 《可 能 不 得 不 使 用 朵 包 ， 但 是 在 
Diksam 中 却 不 能 使 用 ) 。 

为 了 能 够 达到 上 述 效 果 ， 就 需要 为 静态 类 型 的 语言 Diksam 引 入 “函数 类 
型 ”( 在 C 语 言 中 的 话 就 是 指 问 函数 的 指针 型 〉。 

如 果 想 要 声明 一 个 “接收 int 参数 ， 返 回 double 函数 ”的 类 型 ， 肯 定 不 
能 像 C 语 言 这 样 编写 代码 。 


double (*func)(int); 


说 到 Java， 从 Java7 开 始 就 有 了 要 引入 财 包 的 说 法 ， 妆 初 设想 的 是 下 面 这 
样 的 代码 。 


double(int) func; 


























但 是 在 Java (Diksam) 中 存在 检查 异常 ， 如 果 把 throws 也 作为 方法 必 
要 的 信息 ， 就 要 写成 下 面 这 样 。 


double(int) throws HogeException, PiyoException func ; 








上 面 的 写法 是 因为 在 语法 上 存在 不 确定 性 ， 所 以 需要 改 为 下 面 这 样 的 写 


~ 
~ 


eh 


| 


double(int) throws HogeException | PiyoException func; 


相反 也 可 以 试 着 像 下 面 这 样 定 义 。 


{ int => double } func; 


从 2009 年 5 月 到 现在 ， 就 连 是 否 要 引入 《 闭 包 ) 这 个 问题 本 映 都 还 没有 
得 出 结论 ” 。 说 句 题 外 话 ， 无 论 哪 种 写法 我 都 觉得 太 长 了 “使 用 起 来 至 
少 也 要 像 C 语 言 中 的 typedef 那样 ) 。 

* 很 明显 ， 在 Java7 中 并 没有 加 入 这 个 功能 。 


因此 ， 在 Diksam 中 ， 引 入 了 C# 风 格 的 关键 字 delegate 。 


delegate double Func(int value) throw HogeException, PiyoException; 








根据 这 个 描述 ，Func 被 定义 为 “接受 int 型 参数 ， 返 回 double ， 可 能 
会 抛 出 HogeException 和 PiyoException 的 函数 ”的 类 型 。 


基于 上 面 的 定义 ， 就 可 以 声明 Func 类 型 的 变量 ， 参 数 中 也 可 以 接 
收 Func 类 型 了 。 





// 定义 Func 


delegate double Func(int value) throws HogeException, PiyoException; 


// 定义 函数 


double func(int value) throws HogeException, PiyoExceptiont{ 


} 


// 将 func 赋 值 给 Func 型 的 变量 f 
Func f = func; 











// 通过 f 调 用 func 
f(5); 











与 C# 的 delegate 不 同 ，Diksam 的 delegate 类 型 并 不 是 类 的 对 象 。 
此 ， 没 有 必要 使 用 new”， 也 可 以 说 不 能 new 。 男 外 ， 不 能 将 多 个 函数 风 
值 到 一 个 delegate 中 。 





*C# 从 2.0 开 始 也 不 需要 new 了 。 


另外 ， 在 给 delegate 类 型 的 变量 赋值 的 时 候 ， 和 方法 重 写 时 一 样 ， 返 
回 值 必须 共 变 ， 参 数 必须 反 变 。 


方法 也 可 以 赋值 给 delegate 类 型 的 变量 ， 此 时 ， 方 法 所 在 对 象 的 引用 
也 会 被 保存 到 变量 中 。 因 此 ， 方 法 在 作为 事件 句柄 被 调用 的 时 候 ， 也 可 
以 和 平 币 一 样 使 用 this 引用 。 


在 实现 上 ，delegate 类 型 的 值 作为 DVM_0bject 的 共用 体 之 一 保存 在 
堆 中 。delegate 型 变量 如 果 保 存 的 是 方法 的 话 ， 就 必须 要 同时 保存 方 
法 所 在 对 象 的 引用 ， 因 此 ， 需 要 保存 的 信息 如 下 所 示 。 














/* 保存 delegate 信 息 的 结构 体 */ 


typedef struct { 
/* 如 果 保 存 的 是 方法 ， 那 么 这 个 成 员 保 存 的 是 方法 所 在 对 象 的 引用 。 如 果 是 函数 则 为 nu 
































DVM_ ObjectRef object; 
/* 函数 或 者 方法 的 索引 值 */ 
int index; 


} Delegate; 














/* 在 DVM_0bject 结 构 体 中 通过 共用 体 保 存 上 述 结构 体 */ 
struct DVM Object tag { 
ObjectType type; 
unsigned int marked:1; 
union { 
DVM_String string; 











DVM_Array array; 
DVM ClassObject class object; 
NativePointer native pointer; 
Delegate delegate; < 这 个 

} uy; 

struct DVM Object tag *prev; 

struct DVM Object tag *next; 

}; 





那么 ， 关 于 delegate 对 象 的 创建 时 机 ， 从 语言 实现 的 角度 讲 ， 无 论 是 
函数 还 是 方法 ， 让 调用 总 是 通过 delegate 对 象 的 话 比较 容易 实现 。 无 
论 是 调用 print("hello"); 这 样 的 函数 ， 还 是 调用 obj.method() 这 
样 的 方法 ， 在 它们 对 print 、obj .method 1 进行 计算 的 时 候 就 会 创建 








delegate 。 但 是 ， 癌 堆 中 保存 对 象 是 一 项 开销 很 大 的 处 理 ， 大 多 数 情 
况 下 ，print 也 不 会 赋值 给 其 他 变量 ， 而 是 立即 调用 。 为 了 不 因 个 别 情 
况 而 影响 整体 的 效率 ，delegate 对 象 在 以 下 时 机 被 创建 。 


1 这 两 行 代码 在 被 () 调用 前 ， 会 被 当做 表达 式 。 一 一 译 者 注 
1. 在 疯 数 的 情况 下 ， 当 函数 赋值 给 delegate 变量 的 时 候 。 
2. 在 方法 的 情况 下 ， 通 过 非 立 即 调用 的 形式 进行 了 (表达 式 ) 计算 的 
时 候 。 


另外 ，delegate 对 象 在 指向 方法 的 时 候 也 引用 了 对 应 的 对 象 ， 这 样 做 
会 导致 这 个 对 象 不 能 成 为 GC 的 目标 。 因 此 也 需要 对 GC 进 行 修改 。 











9.5.5 final、 const (Diksam ) 





crowbar 想 要 定义 常量 的 时 候 ， 要 使 用 final (Java 风 格 )。 


final HOGE = 108; 


在 变量 声明 时 如 果 加 了 final 的 话 ， 在 赋 了 初始 值 之 后 ， 就 不 能 再 对 其 
进行 赋值 了。 并且 ， 必 须要 在 声明 的 同时 完成 赋 初 始 值 的 动作 。final 
也 可 以 用 于 局 部 变量 。 


在 Diksam 中 ， 同 样 使 用 了 final。 





final int HOGE = 108; 


在 Diksam 中 函数 的 形式 参数 、catch 子 句 中 接收 异常 的 变量 ， 都 默认 为 
是 final 的 。 这 样 做 的 目的 在 于 ， 不 让 从 被 调用 的 位 置 或 者 异常 发 生 的 
源头 获得 的 重要 信息 被 稀里糊涂 地 顽 兰 掉 。 


在 Diksam 中 人 允许 分 割 编译 ， 并 且 不 存在 路 源 文 件 的 全 局 变量 。 为 了 不 出 

现 乱 用 全 局 变量 的 情况 ， 我 认为 最 好 的 方式 是 通过 get_xxx() 和 

人 
局 常量 。 


但 是 ， 我 认为 ， 与 其 抛 莽 “不 存在 跨 源 文件 的 全 局 变量 ”等 (和 其 他 语言 
相 比 有 些 特别 〉 的 设计 ， 直 接 允 许 使 用 全 局 变量 ， 不 如 声明 加 了 final 
的 全 局 常量 可 能 更 好 一 些 。 但 实际 上 并 没有 这 么 简单 。Diksam 具 有 顶层 
结构 ， 顶 层 结构 是 由 被 执行 的 语句 组 成 的 。 因 此 ， 即 使 在 函数 外 声明 了 
变量 (如 末 是 C 语 言 的 话 ， 就 是 声明 全 局 变量 ) ， 在 声明 语句 被 执行 前 
是 得 不 到 初始 值 的 。 这 样 一 来 ， 因 为 require 了 的 其 他 文件 源 代 码 的 顶 
层 结构 在 编译 时 ) 是 绝对 不 会 执行 的 ， 所 以 即使 用 final 声明 的 常 
量 可 以 被 其 他 源 文 件 require 。 但 是 在 编译 时 来 看 ， 它 并 没有 被 赋值 ， 
因此 达 不 到 预期 的 效果 。 


因此 ， 在 Diksam 中 配合 着 final 引入 了 const 这 个 关键 字 。const 的 使 
用 方法 如 下 所 示 。 


const HOGE = 10; 


因为 通过 初始 值 可 以 判断 类 型 ， 所 以 const 无 需 指定 类 型 。 


const 与 函数 定义 、 枚 举 、delegate 的 声明 一 样 ， 不 能 写 在 函数 内 。 男 
外 ， 可 以 从 其 他 源 文件 中 被 引用 。 


在 为 const 指 定 的 常量 设置 值 的 时 候 ， 需 要 考虑 以 下 的 情况 。 
1. 与 C 语 言 的 预 处 理 相 同 ， 在 编 详 前 就 要 置换 常量 。 


2. 在 编译 时 置换 常量 。 
3. 编译 时 与 变量 采取 同样 的 实例 ， 在 开始 执行 时 再 将 值 代入 。 









































1、2 在 编译 前 和 编译 时 进行 答 换 的 方法 在 执行 效率 方面 具有 优势 ， 但 是 


对 于 使 用 者 来 说 ， 会 由 于 不 能 定义 如 下 形式 的 常量 而 困扰 。 


const HOURS_IN_DAY = 24;// 一 天 24 小 时 
const MINUTES IN DAY = HOURS IN DAY * 66;// 1 天 = 24 x 66 分 





如 果 要 在 编译 时 或 者 编译 前 置换 常量 ， 那 么 这 些 表达 式 在 编译 时 就 必须 
要 全 部 执行 。 如 “数组 大 小 ”等 被 作为 常量 表达 式 处 理 的 话 ， 惑 需要 (在 
编译 时 ) 调用 数组 的 size() 方法 。 这 样 的 做 法 太 困 难 了 ， 因 此 Diksam 
还 是 采用 了 方法 3。 


所 有 包含 有 代码 的 const 常量 的 初始 值 都 将 作为 字 节 人 码 保存 

在 DVM_Executable 中 ， 在 编译 /加 载 源 代码 的 时 候 再 去 执行 它们 。 初 
始 值 中 可 以 书写 任意 的 表达 式 ， 既 可 以 使 用 new 分 配对 象 ， 也 可 以 使 用 
原生 函数 分 配 特 定 的 系统 资源 (例如 stdin 、stdout 、stderr 文件 指 
针 等 ) 。 


因为 const 常量 会 被 其 他 文件 链接 ， 所 以 与 函数 、 类 、 枚 举 一 样 
在 ExecutableEntry 中 保存 了 转换 对 应 表 。 








附录 A ”crowbar 语 言 的 设计 


本 章 将 要 说 明 在 本 书 中 crowbar 的 最 终 版 本 (book_ver.0.4) 的 设计 。 
但 是 ， 本 章 中 的 内 容 既 不 是 定稿 版 的 文档 ， 也 不 是 很 严谨。 因为 如 果 想 
要 严谨 地 描述 一 门 语言 的 设计 需要 相当 的 篇 幅 。 

A.1 程序 结构 


构成 程序 的 要 系 


crowbar 的 程序 由 以 下 要 素 构成 。 


1. 顶层 结构 
顶层 结构 (toplevel) 由 语句 (statement) 组 成 。crowbar 的 程序 由 处 理 
器 指定 的 源 文 件 的 顶层 结构 开始 执行 。 


2. 函数 定义 

函数 定义 (function definition) 是 定义 可 以 《可 能 ) 从 其 他 位 置 调 用 的 
函数 。 在 顶层 结构 的 语句 按 顺 序 执行 的 时 候 会 包 略 函数 定义 。 因 为 函数 
允许 回溯 引用 ， 所 以 其 定义 的 位 置 既 可 以 在 调用 的 位 置 之 前 ， 也 可 以 在 
调用 的 位 置 之 后 。 





A.2 文字 语法 规则 


A.2.1 源 文 件 的 编码 





crowbar 的 源 文件 使 用 与 处 理 器 相同 的 字符 编码 。 当 前 确定 的 是 在 UNIX 
环境 中 为 EUC 和 UTF-8， 在 Windows 环 境 中 为 GB2312。 除 了 写 注 释 和 定 
义 字 符 串 常量 之 外 的 情况 ， 都 不 能 使 用 非 ASCII 字 符 。 

A.2.2 关键 字 


下 面 这 些 单词 作为 owbar 的 关键 字 ， 不 能 作为 变量 名 、 函 数 名 使 用 。 


break catch closure continue else elseif final finally for 
foreach function global if null return throw true try while 


A.2.3 空白 字符 的 处 理 





空格 (ASCII 码 的 0x20) 、 制 表 符 和 换行 符 在 源 文件 中 除了 区 分 不 同 的 
标识 符 外 没有 其 他 含义 。 


A.2.4 注释 


在 crowbar 中 从 # 开始 到 本 行 结束 都 会 被 作为 注释 。 


A.2.5 标识 符 





被 当做 变量 名 、 函 数 名 、 类 名 等 使 用 的 标识 符 ， 需 要 遵从 以 下 规则 。 


. 第 一 个 字符 必须 是 其 文字 母 (A~Z, a~z) 或 者 是 下 划 线 。 
。 从 第 二 个 字符 开始 可 以 是 英文 字母 、 下 划 线 或 数字 〈0~9) 。 


crowbar 的 标识 符 中 不 允许 使 用 中 文 等 ASCI 字 符 集 中 不 包含 的 字符 。 





1. 真 假 值 常量 
党 旦 . 口 
里 人 和 仅 


真 假 值 常 


2. 整数 常量 
整数 常量 由 6 或 者 “1 ~9 后 面 跟着 0 个 或 以 上 的 6 ~9 ”组 成 。 
目前 为 止 还 不 支持 八进制 和 十 六 进 制 的 表示 方式 。 


3. 实数 音量 
实数 常量 由 “1 个 以 上 8 ~9 的 组 合 、 点 、1 个 以 上 6 ~9 的 组 合 ” 组 成 。 
.5 或 者 1. 都 不 是 实数 常量 。 


4. 字符 串 常量 | 
字符 串 常 量 是 由 双 引 号 括 起 来 的 字符 串 。 在 字符 串 常 量 中 \n 表示 换 
行 ，\t 表示 制 表 符 ，\\ 表示 \ 。 


有 true ( 真 ) 和 false ( 假 ) 。 








5. null 常 量 


null 常量 用 来 表示 引用 类 型 没有 指 问 任 何 值 。 


6. 数组 常量 

在 花 括 写 {} 中 将 元 素 用 逗号 分 开 ， 并 初始 化 元 素 就 创建 了 数组 常量 。 
数组 常量 的 详细 内 容 请 参考 A.3.3 节 。 

在 最 后 一 个 元 素 的 后 面 有 没有 逗号 都 可 以 。 


7. 正则 表达 式 和 常量 
人 
【 例 】 














%%r"[a-z]*" 















































%%r1hoge(.)a\1! < 用 括号 括 起 来 的 部 分 可 以 在 \1 的 位 置 被 回溯 引 























一 部 分 ) 会 被 当做 运算 符 (operator) 解释 。 


> >= < <=+-*/% 


. () [] 


NE 
可 
[py 
ss 
性 
家 
区 
J 
讨 





以 下 的 字符 会 被 解释 为 分 隔 符 (punctuator)。 


(3 


A.3 数据 类 型 


A.3.1 类 型 一 览 


在 crowbar 中 存在 以 下 类 型 (type) 。 


逻辑 类 型 : true 或 者 false 。 
整数 类 型 : 能 够 表达 的 范围 与 处 理 器 编译 的 C 语 言 环 境 中 的 int 类 型 一 


致 。 
实数 类 型 : 能 够 表达 的 范围 与 处 理 需 编 译 的 C 语 言 环 境 中 的 double 类 
型 一 致 。 


字符 串 类 型 : 字符 串 类 型 的 详细 内 容 请 参考 A.3.2 市 。 
数组 类 型 ， 数 组 类 型 的 详细 内 容 请 参考 A.3.3 市 。 

对 象 类 型 : 对 象 类 型 的 详细 内 容 请 参考 A.3.4 节 。 

函数 类 型 : 函数 类 型 的 详细 内 容 请 参考 A.3.5 节 。 

原生 指针 类 型 ， 原生 指针 类 型 的 详细 内 容 请 参考 A.3.6 节 。 





A.3.2 ”字符 串 类 型 


crowbar 的 字符 串 类 型 属于 引用 类 型 。 但 是 因为 字符 串 本 和 号 不 能 改变 
(immutable〉， 所 以 使 用 者 没有 必要 意识 到 它 是 一 个 引用 类 型 。 

crowbar 的 字符 串 类 型 的 内 部 表现 形式 为 ， 处 理 器 编译 的 C 语 言 环境 中 的 
宽 字 符 串 。 

字符 串 具 有 以 下 的 模拟 方法 (fake method) ， 通 过 方法 调用 的 形式 取 
得 字符 串 的 相应 信息 。 


全 
1 居 Ar pe 
取得 字符 串 的 长 度 ， 





0 符 串 ， 并 返回 包含 截取 内 容 的 新 字符 串 。 第 1 个 参数 指定 截取 开始 的 位 置 
5); 。 1 个 字符 是 0) ， 第 2 个 参数 指定 要 截取 的 长 度 














A.3.3 ”数组 类 型 





crowbar 是 非 静 态 类 型 的 语言 ， 因 此 数组 中 可 以 保存 所 有 的 类 型 ， 不 仅 
如 此 ， 各 种 数据 类 型 可 以 同时 被 装 在 一 个 数组 里 面 。 


crowbar 的 数组 类 型 可 以 通过 数组 常量 和 new_array() 函数 创建 。 


建 以 整数 、 字 符 串 、 实 数 、 数 组 为 元 素 的 数组 
{1, "abc", 160.6, {1, 2, 3}}; 








# 创建 有 16 个 元 素 的 数组 (元 素 的 初始 值 为 nu11) 


a2 = new_array(10); 








取得 数组 元 素 和 为 元 素 赋值 都 再 要 使 用 [] 运算 符 。 数 组 下 标 从 0 开始 。 


# 取得 数组 的 元 素 
print("a[3].." + a[3]); 


# 为 数组 元 素 赋值 
a[5] = 16; 





crowbar 的 数组 是 引用 类 型 。 


数组 具有 以 下 的 模拟 方法 ， 通 过 方法 调用 的 形式 操作 数组 。 





m> 
X 


使 用 范例 
a.add(3): 炎 J 末尾 添加 元 素 
size = a.size(); 导数 组 的 元 素 个 数 


改变 数组 的 元 素 个 数 。 如 果 新 指定 的 大 小 小 于 当前 数组 的 元 素 个 数 ， 则 
a.resize(new_size); | 根据 新 的 大 小 舍弃 数组 后 面 的 元 素 。 如 果 大 于 当前 元 素 个 数 ， 则 增加 元 





























素 并 把 这 些 元 素 设置 为 null 
a.insert(2, 3); 在 第 1 个 参数 指定 的 下 标的 元 素 前 ， 插 入 第 2 个 参数 中 指定 的 值 


RS 删除 参数 指定 的 下 标的 元 素 ， 并 将 后 面 的 元 素 向 前 移动 一 个 下 标 。 结 果 
是 数组 的 元 素 个 数 减 少 1 


ite = a.iterator(); | 取得 数组 的 迭代 器 。 关 于 迭代 器 请 参考 A.3.7 贡 
































A.3.4 对象 类 型 











对 象 类 型 是 由 多 个 成 员 组 成 的 类 型 。 数 组 通过 下 标 指 定 元 隶 ， 对 象 则 
古 通 过 成 员 名 称 指定 。 

对 象 通 过 new_object() 函数 创建 。 创 建 的 对 象 通 过 对 指定 的 成 员 名 称 
赋值 的 形式 ， 为 对 象 添加 成 员 。 

# 创建 空 的 对 象 


0 = new_ object(); 











# 添加 对 象 的 成 员 
10; 
20; 


# 引用 对 象 的 成 员 


print("o.x.." + O.X+", O.y.." + O.y+ "\n"); 





对 象 类 型 是 引用 类 型 。 
A.3.5 ”函数 类 型 


不 仅 可 以 通过 函数 名 赋值 给 其 他 变量 ， 还 可 以 通过 () 进行 调用 。 








function a() { 
print("hello!\n"); 


} 


c = a; # 将 函数 a 代入 c 
c(); # < 输出 “hello!” 





可 以 使 用 关键 字 closure 在 表达 式 中 定义 一 个 无 名 的 函数 。 这 种 方式 被 
称 为 朵 包 (closure) 。 
c= Closure() { 


print("hello!\n"); 
}; 


c(); < 输出 “hello!” 





从 闭 包 内 部 可 以 引用 到 创建 团 包 所 在 位 置 的 局 部 变量 。 即 使 在 闭 包 调用 
的 时 候 ， 创 建 闭 包 的 函数 已 经 结束 的 情况 下 也 是 一 样 。 


A.3.6 原生 指针 类 型 





原生 指针 类 型 是 保存 在 原生 函数 内 部 使 用 的 值 〈 如 文件 指针 ，FILE* ) 
的 类 型 。 在 原生 函数 外 的 原生 指针 类 型 只 能 够 进行 复制 和 等 值 比较 。 


现在 的 原生 指针 类 型 只 在 文件 指针 和 正则 表达 式 中 使 用 。 

原生 指针 类 型 可 以 由 原生 函数 定义 终结 器 (finalizer) 。 终 结 器 是 在 GC 
要 释放 原生 指针 类 型 所 指向 的 对 象 时 执行 的 函数 。 但 是 ， 因 为 终结 器 的 
DT OLR a Rs 所 以 有 关 重 要 资源 的 释放 不 应 该 依赖 终 
此 如 > 

A.3.7 秋 代 器 

迭代 器 (iterator) 是 表现 循环 的 类 型 。 


迭代 器 是 一 个 设置 了 一 些 闭 包 方 法 (method) 的 对 象 ， 并 不 是 处 理 器 中 
定义 的 特殊 类 型 。 因 此 ， 在 用 户 程序 中 也 可 以 定义 迭 代 器 。 


友 代 喜 是 具有 以 下 方法 的 对 象 。 


first() :返回 迭代 器 中 的 第 一 个 元 素 。 

next() :将 迭代 器 游标 同 后 移动 一 个 。 

is_done() :迭代 器 移动 到 超出 最 后 一 个 元 素 的 位 置 时 返回 true ， 人 否则 
返回 false 。 

current_item() :返回 迭代 器 中 当前 的 元 素 。 


crowbar 的 数组 可 以 通过 iterator() 方法 得 到 数组 的 欠 代 堪 。 另 外 ， 在 
使 用 foreach 语法 的 时 候 ， 残 是 基于 迭代 器 循环 的 。 











A.3.8 ”异常 


在 crowbar 中 ， 异 和 常 是 被 设置 了 一 些 闭 包 作为 方法 的 对 象 。 可 以 使 用 原 
生 函 数 new_exception() 来 创建 异常 。 


使 用 者 在 创建 “异常 ”的 时 候 ， 需 要 使 用 内 建 函 

数 create_exception_class() 。 这 个 函数 以 *“ 父 类 ”为 参数 创建 一 个 
新 的 异常 类 。 通 过 调用 这 个 类 的 create() 方法 ， 创 建 属于 这 个 类 的 实 
例 。 


# 在 构建 脚本 中 对 ArithmeticException 定 义 的 描述 


ArithmeticException = create exception class(RuntimeException); 











# 通过 create() 方 法 生成 实例 。 
e = ArithmeticException.create(); 








异常 实例 中 的 child_of() 方法 用 于 检查 异常 的 类 型 。 在 上 面 的 例子 
中 ，ArithmeticException 是 RuntimeException 的 子 类 ，e 是 
ArithmeticException 的 实例 ， 因 此 如 果 调 

用 e.child_of(RuntimeException) 的 话 ， 传 入 上 面 两 个 类 都 会 返回 
true 。 


A.4 表达 式 


所 谓 表达 式 〈expression) ， 就 是 通过 运算 符 将 常量 或 者 标识 从 关联 起 
来 。 





A.4.1 类 型 转换 


在 crowbar 中 使 用 双 目 运算 符 (+ 、- 、* 、/ 、% ) 和 比较 运算 符 (== 
、!=、>、>=、《<、<= ) 时 ， 如 果 两 边 的 类 型 不 同 的 话 ，crowbar 会 
基于 下 面 的 规则 对 类 型 进行 扩展 。 


1. 不 论 左边 还 是 右边 ， 只 要 其 中 一 边 是 整数 ， 男 外 一 边 是 实数 的 时 
候 ， 整 数 会 转换 为 实数 。 

2. 在 左边 是 字符 串 右 边 是 逻辑 类 型 、 整 数 类 型 或 者 实数 类 型 的 时 候 ， 
右边 会 转换 为 字符 串 。 


上 述 类 型 转换 ， 在 算术 赋值 运算 符 (+=、-=、#=、/= 、%= ) 的 情况 
下 同样 适用 。 

















A.4.2 运算 符 一 览 


crowbar 的 运算 符 一 览 如 下 所 示 《〈 优 先 顺 序 由 高 至 低 ) 。 


自 增 、 自 减 、 函 数 调用 、 引 用 数组 元 素 、 引 用 对 象 的 成 员 


[ET 


*% | 乘法 、 除法 、 模 

















加 法 、 减 法 。 加 法 运算 符 可 以 连接 字符 串 


比较 大 小 。 字 符 串 也 可 以 比较 大 小 (设计 以 C 语 言 的 strcmp() 为 基准 ) 。 














等 值 比较 。 字 符 串 也 可 以 进行 比较 《比较 的 不 是 引用 而 是 值 ) 
运算 符 。 短 路 运算 符 在 表达 式 a && b 中 ， 如 果 a 为 真 的 话 ，b 就 
































逻辑 或 〈《OR) 运算 符 。 短 路 运算 符 在 表达 式 a || b 中 ， 如 果 a 为 真 的 话 ，b 就 不 
做 判断 了 


赋值 运算 符 。 在 crowbar 中 会 通过 最 初 的 赋值 创建 变量 。 男 外 ， 如 果 在 赋值 表达 
式 前 面 加 上 final 的 话 ， 就 会 变 成 不 能 再 次 赋值 的 常量 定义 


有 逗号 运算 符 。 以 从 左 到 右 的 顺序 计算 表达 式 ， 返 回 右边 表达 式 的 值 。 





























在 crowbar 中 ， 只 存在 后 置 的 目 增 和 目 减 运算 符 。 并 且 ， 其 动作 与 C 等 语 
〈 不 会 等 到 最 后 ， 而 是 立刻 目 增 表达 式 的 
值 ) 。 











A.5 语句 
A.5.1 表达 式 语句 
所 谓 表达 式 语句 (expression statement) ， 就 是 在 表达 式 后 面 加 上 分 


写 。 























# 调用 print() 函 数 的 表达 式 ， 后 面 
print("hello,world\n"); 








# 自 增 表达 式 后 面 加 上 分 号 


i++; 
































# 无 副作用 的 表达 式 也 可 以 成 为 表达 式 语句 ， 但 没有 任何 意义 
5; 











A.5.2 “证 得 名 


if 语句 是 根据 条 件 进行 判断 并 进行 分 文 处 理 的 语句 。 


if (条 件 表达 式 1) { 

# 条 件 表 达 式 1 为 真 时 执行 的 处 理 。 
} elseif (条 件 表达 式 2) { 

# 条 件 表 达 式 1 不 为 真 ， 且 条 件 表达 式 2 为 真 时 执行 的 处 理 。 
} else { 

# 所 有 条 件 表达 式 都 不 为 真 时 执行 的 处 理 。 
















































































} 





elsif 子 句 和 else 子 句 都 是 可 以 省 略 的 。 男 外 ， 可 以 编写 任意 多 
个 elsif 子 句 。 

与 C 等 语言 不 同 的 是 ， 即 使 只 包含 一 行 语句 ， 也 不 能 省 略 花 括 写 ({} 
让 


A.5.3” while 语句 


while 语句 是 进行 循环 操作 的 语句 。 
| 标识 符 : | 





while (条 件 表达 式 ) { 
# 在 条 件 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 





} 





“标识 符 : ”的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 
与 if 语句 相同 ， 即 使 只 包含 一 行 语句 ， 也 不 能 省 略 花 括号 ({} ) 。 


A.5.4 for 语句 


for 语 句 是 进行 循环 操作 的 语句 。 


标识 符 : 
for 第 1 表达 式 ; 第 2 表达 式 ; 第 3 表达 式 ) { 
# 在 第 2 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 











} 





“标识 符 : ”的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 


让 我 们 先 看 一 段 for 语 句 的 代码 : 
# 创建 一 个 数组 


a = new_array(10); 


























得 数组 的 每 个 元 素 


for(i = 6j i «< a.size(); i++){ 








渝 出 每 个 元 素 
print("a["+ ii+ "].."”+a[il]); 





人 
I 叫 法 。 


第 1 表达 式 通 种 的 作用 是 对 判断 循环 是 否 需要 继续 的 变量 进行 初始 化 ， 
因此 也 叫 作 初 始 化 表达 式 。 


第 2 表达 式 通常 的 作用 是 根据 初始 化 表达 式 中 创建 的 变量 ， 以 此 判断 是 
否 需 要 继续 循环 ， 因 此 也 叫 作 判 断 表 达 式 。 


第 3 表达 式 通 第 的 作用 是 重新 设置 循环 的 判断 条 件 〈“ 一 般 都 是 ++ 或 者 - 
-) ， 因 此 也 叫 作 增 量 表达 式 。 


上 述 for 语句 中 ， 除 了 在 continue 时 会 执行 第 3 表达 式 之 外 ， 其 他 与 下 
面 的 while 语句 效果 相同 。 


第 1 表达 式 ; 
while (第 2 表达 式 ) { 
# 语句 











第 3 表达 式 ; 





第 1 表达 式 、 第 2 表达 式 、 第 3 表达 式 者 是 可 以 省 略 的 。 在 省 略 了 人 第 2 表达 
式 时 意味 独 永 远 返 回 真 。 





A.5.5 ”foreach 语句 


foreach 语句 是 利用 夫 代 器 进行 循环 操作 的 语句 。 


标识 符 : 
foreach (变量 
# 语句 

















} 





“标识 符 : ”的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 上 述 foreach 
语句 等 同 于 下 面 的 for 语句 。 
for (ite = 集合 .iterator(); !ite.is done(); ite.next()) { 


变量 = ite.current item(); 
# 语句 














但 是 ， 实 际 上 在 foreach 语句 中 引用 不 到 友 代 器 ， 在 上 述 例子 中 变量 
ite 并 不 存在 。 


A.5.6 _ return 语句 


return 语句 是 从 函数 中 跳出 的 语句 。 
return 表达 式 ; 


在 省 略 表达 式 的 时 候 ， 该 函数 返回 null 。 
A.5.7 ”break 语 句 


break 语句 是 用 于 跳出 循环 的 语句 。 


break 标识 符 ; 


标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 跳 出 最 内 侧 的 循环 。 
在 指定 了 标识 符 的 情况 下 ， 跳 出 持 有 同样 标识 符 的 循环 。 
A.5.8 continue 语句 


continue 语句 用 于 跳 转 到 循环 的 末尾 。 


continue 标识 符 ; 


标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 以 最 内 侧 的 循环 为 对 象 。 
在 指定 了 标识 符 的 情况 下 ， 以 持 有 同样 标识 符 的 循环 为 对 象 。 


在 以 for 为 对 象 进行 continue 的 时 候 ，continue 后 会 紧 接 着 计算 for 
语句 的 第 3 表达 式 。 


A.5.9 try 语句 





try 语句 是 用 于 执行 异常 处 理 的 语句 。 


try{ 
# 语句 


























在 try 子 句 中 如 果 发 生 了 异常 就 会 执行 catch 子 句 。 友 生 的 异常 会 被 设 





置 到 catch 子 句 声明 的 变量 中 。catch 子 句 和 finally 子 句 只 要 存在 其 
中 的 任何 一 个 ， 另 外 一 个 束 可 以 被 省 略 。 


无 论 异常 是 否 发 生 ， 无 论 是 否 存在 catch 子 句 ，finally 子 句 都 一 定 会 
执行 。 在 try 子 句 或 者 catch 子 句 中 ， 如 采 执 行 了 break 、continue 
、return 来 中 断 处 理 ， 那 么 也 会 执行 finally 子 句 。 如 果 使 用 break 
、continue 、return 来 中 断 finally 子 句 的 话 ， 相 比 finally 的 执 
行 结 有 果 ，try 子 句 或 者 catch 子 句 中 语句 的 执行 结果 会 更 优先 。 例 

如 ，try 子 句 内 执行 了 return 5; ， 在 返回 前 执行 了 finally 子 句 中 的 
return 3; ， 在 这 种 情况 下 ， 最 终 被 作为 返回 值 返回 的 是 5 。 











A.5.10 throw 语句 


throw 语句 是 用 于 抛 出 异常 的 语句 。 


e 在 通常 情况 下 会 使 用 通过 new_exception() 创建 的 异常 对 象 ， 但 是 
整数 类 型 等 其 他 所 有 类 型 都 可 以 被 throw 。 


在 try 子 句 内 发 生 的 异常 ，《 如 果 有 的 话 ) 会 在 catch 子 句 中 被 捕捉 。 
当 catch 子 句 不 存在 或 者 异常 发 生 在 try 语句 之 外 的 时 候 ， 会 终止 当前 
正在 执行 的 函数 并 返回 到 调用 者 〈 或 者 叫 上 一 层 ) 的 处 理 中 。 如 果 调 用 
者 也 没有 catch 这 个 异常 的 话 ， 则 会 沿 着 调用 层级 回 湖 ， 直 到 顶层 结 
构 。 如 果 顶 层 结构 中 也 没有 捕捉 这 个 异常 ， 束 会 输出 栈 轨 迹 (stack 
trace) 并 终止 处 理 。 


crowbar 中 的 栈 轨迹 在 调用 new_exception() 的 时 候 就 被 创建 了 。 














A.5.11 global 语句 


global 语句 是 为 了 在 函数 内 引用 全 局 变量 而 使 用 的 语句 。 在 crowbar 
中 ， 如 果 不 使 用 global 语句 进行 声明 的 话 ， 在 函数 内 就 访问 不 到 全 局 


变量 。 














# 引用 了 STDIN，STDOUT 两 个 全 局 变量 
global STDIN,STDOUT; 





A.6 函数 
A.6.1 函数 定义 
函数 使 用 以 下 形式 定义 。 


function 函数 名 (参数 ) { 


# 语句 





} 





请 参考 下 面 的 示例 。 
# 接收 两 个 参数 并 返回 它们 的 和 的 函数 


function sum (a, b) { 
return a + b; 





} 





A.6.2 局 部 变量 











在 函数 内 声明 的 变量 束 是 局 部 变量 (local variable) 。 


局 部 变量 的 作用 域 只 在 当前 函数 内 。 与 C 语 言 不 同 的 是 ， 函 数 内 的 程序 
块 并 不 会 形成 作用 域 ! 


1 也 就 是 说 ， 局 部 变量 的 作用 域 是 当前 函数 ， 而 不 是 当前 程序 块 。 一 一 译 者 注 

















附录 B Diksam 语 言 的 设计 


以 下 将 要 介绍 的 是 在 本 书 中 Diksam 最 终 版 本 (book_ver.0.4) 的 设计 。 
与 附录 人 A 一样 ， 内 容 并 不 是 很 严谨 。 


B.1 程序 结构 


B.1.1 构成 程序 的 要 素 





Diksam 的 程序 由 以 下 要 素 构 成 。 


1. 声明 部 分 
声明 部 分 由 require 声明 和 rename 声明 组 成 。 声 明 部 分 必须 在 源 文件 
的 开头 ， 但 也 可 以 省 略 。 


2. 顶层 结构 
顶层 结构 〈toplevel) 由 语句 (statement) 组 成 。Diksam 的 程序 从 处 理 
器 中 指定 的 源 文 件 的 顶层 结构 开始 执行 。 


3. 函数 定义 或 声明 

函数 定义 (function definition) 定义 可 以 《可 能 ) 从 其 他 位 置 调用 的 函 
数 。 在 顶层 结构 的 语句 顺序 执行 时 会 忽略 函数 定义 。 因 为 函数 允许 回 济 
引用 ， 所 以 其 定义 的 位 置 既 可 以 在 调用 的 位 置 之 前 ， 也 可 以 在 调用 的 位 
置 之 后 。 


函数 声明 (function declaration〉 只 声明 了 疯 数 的 签名 (signature) 。 
对 于 函数 声明 来 说 ， 必 须 存 在 与 其 对 应 的 定义 。 

4. 类 型 定义 

类 型 定义 包括 类 定义 (class definition) 、 接 口 定义 (interface 
definition) 、 枚 举 类 型 定义 (enumerated type definition ) 和 delegate 类 
型 定义 (delegate type definition ) 。 

类 型 定义 是 为 了 定义 可 能 在 其 他 位 置 使 用 的 数据 类 型 。 与 函数 一 样 ， 会 
在 顶层 结构 的 语句 执行 时 被 忽略 ， 并 且 人 允许 回溯 引用 。 


下 面 是 儿 个 示例 。 





仅 由 顶层 结构 组 成 的 Diksam 程 序 : 


println("hello, world."); 





开头 含有 声明 部 分 的 Diksam 程 序 : 


// 将 标准 函数 println 改 名 为 print_ Line 
rename diksam.lang.println print line; 








print line("hello, world."); 





包含 函数 定义 的 Diksam 程 序 : 


// 函数 定义 
void func() { 
println("hello, world."); 


} 


// 调用 定义 的 函数 
func(); 























包含 类 定义 的 Diksam 程 序 : 


public class Point { 
private double X; 
private double y; 
void pirnt() { 
println("x.." + this.x + ", y.." + this.y); 
} 
constructor initialize(x, y)t{ 
this.x = x; 
this.y = y; 


} 


// 创建 Point 类 的 实例 

Point p = new Point(106, 20); 
// 输出 p 的 内 容 

p.print(); 





B.1.2 分 割 编译 

通过 声明 部 分 的 require 声明 指定 的 包 (package) ， 达 到 能 够 使 用 在 
其 他 源 文 件 中 定义 的 函数 和 类 的 目的 。 

在 Diksam 中 ， 包 由 一 个 源 文件 (扩展 名 .dkh ) 或 者 两 个 源 文 件 〈 扩 展 
名 .dkh 和 .dkm ) 的 组 合 组 成 。 


下 面 的 例子 通过 require 了 hoge.piyo.fuga 包 ， 达 到 了 可 以 使 
用 fuga.dkh 中 定义 的 类 和 函数 的 目的 。 


require hoge.piyo.fuga; 


在 .dkh 文 件 中 描述 了 只 有 在 函数 的 签名 声明 的 情况 下 ， 实 际 调用 函数 的 
时 候 处 理 器 才 会 对 fuga .dkh 对 应 的 实现 文件 fuga.dkm 进行 搜索 并 编 
译 /加 载 。 这 种 机 制 被 称 为 动态 加 载 (dynamic load) 。 


被 require 文件 的 搜索 路 径 ， 即 环境 变量 DKM_REQUIRE_SEARCH_PATH 
， 在 UNIX 环 境 中 使 用 喜 号 分 隔 ， 在 Windows 环 境 中 使 用 分 号 分 隔 。 
为 Diksam 的 包 名 和 文件 路 径 的 层级 是 一 致 的 ， 所 以 只 需要 指定 搜索 路 径 
就 可 以 以 此 为 起 点 ， 通 过 包 名 的 层级 搜索 文件 了 。 


在 没有 设 定 DKM_REQUIRE_SEARCH_PATH 的 情况 下 ， 当 前 目录 将 成 为 唯 
一 的 搜索 路 径 。 


另外 ， 动 态 加 载 时 的 搜索 路 径 可 以 通过 环境 变量 
DKM_LOAD_SEARCH_PATH 取得 。 


diksam.1lang 包 已 经 默认 为 require ， 因 此 使 用 者 无 需 自己 再 进 


行 require。 
被 require 的 源 文 件 中 ， 顶 层 结构 将 被 忽略 ， 不 会 执行 。 


B.1.3 解决 命名 冲突 














在 require 了 多 个 包 的 时 候 ， 很 可 能 会 发 生 类 名 、 函 数 名 的 命名 冲突 。 
在 这 个 时 候 ， 可 以 通过 声明 部 分 的 rename 声明 为 标识 符 改 名 ， 以 此 方 


法 来 回避 命名 冲突 。 
下 面 是 将 diksam.1ang 包 下 面 的 print 函数 改名 为 myprint 的 例子 。 


rename diksam.lang.print myprint; 


B.1.4 关于 全 局 变量 的 链接 








在 顶层 结构 中 声明 的 变量 (全 局 变量 ) 相对 于 源 文件 独立 的 ， 不 能 进行 
链接 。 如 采 想 要 让 东 个 包 的 全 局 变量 被 其 他 的 包 访 问 的 话 ， 就 必须 要 声 
明 get_xxx() 、set_xxx() 这 样 的 函数 。 


B.2 语法 规则 





B.2.1 源 文件 的 字符 编码 





Diksam 的 源 文件 使 用 与 处 理 器 相同 的 字符 编码 。 当 前 确定 的 是 在 UNIX 
环境 中 为 EUC 和 UTF-8， 在 Windows 环 境 中 为 GB2312。 除 了 写 注释 和 定 
义 字 符 串 常量 ， 其 他 情况 下 不 能 使 用 非 ASCII 字 符 。 

B.2.2 ”关键 字 


和 不 能 作为 变量 名 、 函 数 名 、 类 名 等 





abstract boolean break case catch class const constructor continue 
default delegate do double else elsif enum false final finally for 
foreach if instanceof int interface native pointer new null override 


private public rename require return string super switch this throw 
throws true try virtual void while 








( 注 ) foreach 是 为 将 来 准备 的 关键 字 ， 现 在 并 没有 使 用 。 


B.2.3 衬 白 字符 的 处 理 


空格 (ASCII 码 的 0x20) 、 制 表 符 和 换行 符 在 源 文件 中 除了 区 分 不 同 的 
标识 符 外 没有 其 他 含义 。 


B.2.4 注释 
在 Diksam 中 可 以 使 用 以 下 两 种 注释 方式 。 


。 以 /* 开始 以 */ 结束 的 注释 ， 这 种 注释 不 能 给 套 使 用 。 
。 以 // 开始 直到 本 行 结束 的 注释 


B.2.5 标识 符 





被 当做 变量 名 、 函 数 名 、 类 名 等 使 用 的 标识 符 ， 需 要 遵从 下 面 的 规则 。 


。 第 一 个 字符 必须 是 英文 字母 (A ~z ，a ~z ) 或 者 是 下 划 线 。 
。 从 第 二 个 文字 开始 可 以 是 英文 字母 、 下 划 线 或 数字 (8 ~9 ) 。 


Diksam 的 标识 符 中 不 允许 使 用 中 文 等 未 被 ASCI 字 符 集 涵盖 的 字符 。 





1. 真 假 值 常量 
量 只 


真 假 值 党 


2. 整数 常量 
整数 常量 由 “8 ”或 者 “1 ~9 后 面 跟着 0 个 或 以 上 的 8 ~9 ”组 成 。 


如 果 在 前 面 加 上 “86x ?或 者 “6X ”前 级 的 话 ， 可 以 表示 十 六 进 制 整数 。 
目前 为 止 还 不 文 持 八进制 表示 方式 。 


3. 实数 音量 
实数 常量 由 “1 个 以 上 的 8 ~9 的 组 合 、 点 、1 个 以 上 的 8 ~9 的 组 合 ” 组 成 。 


.5 或 者 1. 都 不 是 实数 常量。 


4. 字符 串 常 量 


有 true ( 真 ) 和 false ( 假 ) 。 








字符 串 稼 量 是 由 双 引 号 括 起 来 的 字符 串 。 在 字符 串 币 量 中 \n 表示 换 
行 ，\t 表示 制 表 符 ，\\ 表示 \。 


5. null 常 量 


null 常量 用 来 表示 引用 类 型 没有 指向 任何 值 。 

6. 数组 常量 

在 花 括 号 {} 中 将 元 素 用 逗号 分 开 并 对 元 素 进行 初始 化 就 创建 了 数组 常 
量 。 数 组 类 型 为 该 常量 中 第 一 个 元 素 的 类 型 的 数组 。 

最 后 一 个 元 素 的 后 面 有 没有 逗号 都 可 以 。 

B.3 ”数据 类 型 


B.3.1 基础 类 型 

















Diksam 存 在 以 下 基础 类 型 。 


1.void 类 型 (void ) 
void 类 型 表示 函数 是 没有 返回 值 的 特殊 类 型 。 只 能 作为 函数 或 者 方法 
的 返回 值 使 用 。 


2. 逻辑 类 型 (boolean ) 
可 以 是 true 或 者 false 。 


3. 整数 类 型 (int ) 
表示 整数 的 类 型 。 能 够 表达 的 范围 与 编译 器 以 及 编译 VM 的 C 语 言 环境 
的 int 类 型 一 致 。 


4. 实数 类 型 (double ) 
表示 实数 的 类 型 。 能 够 表达 的 范围 与 编译 器 以 及 编译 VM 的 C 语 言 环 境 
的 double 类 型 一 致 。 


5. 字符 串 类 型 (string ) 

表示 字符 串 的 类 型 。 其 内 部 表现 形式 为 编译 器 以 及 编译 VM 时 Ci 语言 环 
境 下 的 宽 字 符 串 。 字符 串 类 型 属于 引用 类 型 。 但 是 ， 因 为 字符 串 本 和 刁 
不 能 改变 Cimmutable) ， 所 以 使 用 者 没有 必要 意识 到 它 是 一 个 引用 类 
型 。 


B.3.2 类 /接口 

类 和 接口 都 属于 用 户 自 定义 类 型 

关于 类 定义 和 接口 定义 的 详细 内 容 请 参考 B.7 节 。 
类 和 接口 都 是 引用 类 型 。 





B.3.3 派生 类 





派生 类 型 是 由 基础 类 型 、 类 、 接 口 派生 出 来 的 类 型 。 
存在 以 下 两 种 派生 类 型 。 


1. 数组 类 型 
Diksam 的 数组 类 型 ， 其 元 素数 无 须 在 声明 时 决定 ， 是 可 以 动态 创建 的 引 
用 类 型 。 

2. 函数 类 型 

丽 数 和 方法 都 是 本 数 类 型 。 函 数 类 型 不 存在 变量 ， 并 可 以 赋值 给 适当 的 
delegate 类 型 。 
数组 类 型 可 以 使 用 递归 。 


int 类 型 数组 的 数组 : 


int[][] a; 


函数 类 型 通过 delegate 类 型 可 以 实现 “函数 的 数组 "”、“ 返 回 函 数 的 函 
数 ” 等 。 





B.3.4” 枚 举 类 型 








| 
Cha 


enum 枚 举 类 型 名 称 { 
枚 举 名 称 ， 





《 枚 举 ) 如 下 所 示 ， 使 用 枚 举 类 型 名 称 . 枚 举 名 称 的 形式 
人 钞 。 


Furits .ORANGE 


枚 举 类 型 在 参与 加 法 运算 (使 用 + 运算 符 ) 时 ， 如 果 左 边 是 字符 串 《〈 枚 
举 类 型 在 右边 ) 的 话 ， 枚 举 类 型 会 转换 为 字符 串 。 


枚 举 类 型 可 以 使 用 比较 运算 符 1!=、>、>=、<、<=) 和 
switch 判 汤 分 支 。 


B.3.5 ”delegate 类 型 


delegate 类 型 是 指 癌 函数 的 引用 类 型 。 通 过 在 关键 字 delegate 后 面 
加 上 与 函数 签名 相同 的 形式 定义 。 


下 面 的 实例 以 一 个 Nindow 、 两 个 int 以 及 一 个 MouseButton 枚 举 为 参 
数 ， 返 回 值 为 void 的 delegate 类 型 (在 后 述 Windows 版 的 Diksam 中 会 被 
实际 使 用 到 ) 。 





// 在 Nindow 按 下 鼠标 的 事件 


delegate void MouseButtonDownpProc(Window window, int x, int y， 


MouseButton button ) ; 





通过 上 述 类 型 定义 ， 就 可 以 像 下 面 这 样 声 明 delegate 类 型 的 变量 了 。 


MouseButtonDownProc mouse button handler; 


也 可 以 定义 把 delegate 类 型 作为 参数 或 者 函数 类 型 的 返回 值 。 


在 表达 式 中 ， 通 过 单独 的 函数 名 就 可 以 创建 函数 类 型 的 值 。 函 数 类 型 的 
值 可 以 赋值 给 与 其 具有 互 换 性 的 delegate 类 型 的 变量 ， 还 可 以 像 函数 





的 实际 参数 那样 ， 作 为 参数 进行 传递 。 


void mouse button func(Window window, int x, int y, MouseButton button){ 


} 


// 在 Nindow 对 象 中 按 下 鼠标 的 时 候 调 用 
// 为 了 处 理 这 个 事件 将 mouse_button _func 作 为 参数 传递 进去 


window.set mouse button down proc(mouse button func); 
























































delegate 类 型 的 变量 不 仪 可 以 赋 函 数 ， 还 可 以 赋 方 法 。 在 赋 方 法 的 时 
候 ，delegate 类 型 的 变量 会 将 方法 对 应 的 类 实例 一 并 保存 起 来 。 


给 delegate 类 型 的 变量 赋值 ， 需 要 满足 以 下 条 件 。 
1. 印 数 或 者 方法 ， 必 须 与 被 赋值 的 delegate 类 型 的 参数 数量 一 


2. 赋值 的 函数 或 者 方法 的 参数 类 型 〈 相 对 应 地 ) ， 必 须 与 被 赋值 的 
的 参数 类 型 一 致 ， 或 者 是 delegate 的 参数 类 型 的 父 


3. 人 必须 与 被 赋值 的 delegate 的 
返回 值 类 型 一 致 ， 或 者 是 delegate 返回 值 类 型 的 子 类 。 

4. 赋值 的 方法 在 throws 中 列 出 的 异常 范围 要 比 被 赋值 的 delegate 
在 throws 中 列 出 的 范围 小 。 





B.3.6 ”内 建 方法 
在 数组 和 字符 串 类 型 中 ， 拥 有 一 些 内 建 方法 。 
数组 的 内 建 方法 如 下 所 示 。 


void add(T | 向 数组 的 末尾 增加 元 素 。T 的 类 型 必须 是 可 以 赋值 给 数组 元 素 的 类 型 


value); 
获取 数组 的 元 素 个 数 
void 改变 数组 的 元 素 个 数 。 如 果 新 指定 的 大 小 小 于 当前 数组 的 元 素 个 数 ， 则 根据 新 


resize(int ”| 的 大 小 舍弃 数组 后 面 的 元 素 。 如 果 比 当前 大 小 大 ， 则 增加 元 素 并 把 这 些 元 素 设 
new_size); | 置 为 该 类 型 的 默认 值 











void 














insert(int ”| 在 指定 下 标 (pos ) 的 元 素 前 面 插入 value 指定 的 值 。T 的 类 型 必须 是 可 以 赋值 给 
日 元 素 的 类 型 。 


























eid int ”| 删除 指定 下 标 pos ) 的 元 素 ， 并 将 后 面 的 元 素 向 前 移动 一 个 下 标 。 结 果 是 数组 
a 的 元 素 个 数 减少 了 1 个 。 





字符 串 的 内 建 方 法 如 下 所 示 。 


ET 




















位 置 ( 第 1 个 字符 是 9) ， 第 2 个 参数 指定 要 截取 的 长 度 。 











Ee 并 返回 包含 截取 内 容 的 新 字符 串 。 第 1 个 参数 指定 开始 截取 的 
pos, int len); 


B.4 表达 式 
表达 式 (expression) 是 由 运算 符 连 接 起 来 的 单 目 表达 式 。 
B.4.1 单 目 表 达 式 





单 目 表 达 式 有 以 下 几 种 。 
。 和 量 。 
。 标识 符 。 昌 然 变 量 名 、 常 量 名 、 函 数 名 是 单 目 表达 式 ， 但 类 名 等 类 





型 的 名 称 不 是 表达 式 。 

this 。 表 示 在 类 的 方法 内 指向 当前 实例 的 引用 。 
super 。 在 类 的 方法 内 ， 调 用 超 类 的 方法 时 使 用 。 
表达 式 。 有 具体 的 使 用 方法 请 参考 B.7.6 节 。 


B.4.2 ”类 型 转换 





在 Diksam 中 ， 具 备 了 以 下 条 件 时 会 进行 自动 转型 。 
。 双 目 运算 符 的 类 型 转换 


双 目 算数 运算 符 (+ 、- 、* 、/ 、% ) 以 及 比较 运算 符 (==、! = 
窗 、<、<= ) 在 两 边 类 而 不 全 致 的 时 候 ， 会 根据 以 F 规 则 进行 类 
广 展 。 


1. 无 论 左 边 还 是 右边 ， 只 要 其 中 一 边 是 整数 (int ) ， 另 外 一 边 是 实 
数 (double ) 的 时 候 ， 整 数 (int ) 会 转换 为 实数 (double ) 。 


2. 在 左边 是 字符 串 的 情况 下 ， 仅 限于 加 法 运算 〈 运 算 符 
为 + ) 0 边 会 转换 为 字符 串 。 


上 述 类 型 转换 ， 在 算术 赋值 运算 符 (+=、-=、*#=、/= 、%= ) 的 情况 
下 同样 适用 。 


。 赋值 时 的 类 型 转换 
1. 把 类 赋值 给 类 的 时 候 ， 当 左边 是 右边 的 超 类 或 者 被 实现 的 接口 
时 ， 会 进行 同上 转型 (up cast) 。 
2. 右边 是 int 类 型 ， 左 边 是 double 类 型 的 时 候 ， 右边 会 转换 
为 double 类 型 。 
3. 右边 是 double 类 型 ， 左 边 是 int 类 型 的 时 候 ， 右 边 会 转换 
为 int 类 型 。 











B.4.3 ”运算 符 一 览 
Diksam 的 运算 符 一 览 如 下 所 示 “《〈 优 先 顺 序 从 高 至 低 ) 。 


ET 自 增 、 自 减 、 函 数 调用 、 引 用 数组 元 素 、 引 用 对 象 的 成 员 、 类 的 类 型 检 
instanceof :类 型 : ”| 查 ( 与 Java 的 设计 相同 ) 、 向 下 转型 


符号 有 反 转 、 人 远 辑 非 














乘法 、 除 法 、 模 


加 法 、 减 法 。 加 法 运算 符 可 以 用 于 连接 字符 串 











比较 大 小 。 字 符 串 也 可 以 比较 大 小 (设计 以 C 语 言 的 strcmp() 为 基准 ) 
等 值 比较 。 字 符 串 也 可 以 进行 比较 《比较 的 不 是 引用 而 是 值 ) 





























&& 逻辑 与 (AND) 运算 符 。 短 路 运算 符 在 表达 式 a 8&& b 中 ， 如 果 a 为 真 ，b 
就 不 做 判断 了 
逻辑 或 (OR) 运算 符 。 短 路 运算 符 ， 在 表达 式 a || b 中 ， 如 果 a 为 
真 ，b 就 不 做 判断 了 




















赋值 运算 符 。 含 义 与 C 语 言 中 的 相同 


逗号 运算 符 。 按 照 从 左 到 右 的 顺序 计算 表达 式 ， 返 回 右边 表达 式 的 值 























在 Diksam 中 ， 只 存在 后 置 的 目 增 和 目 减 运算 符 。 并 且 ， 其 动作 与 C 等 语 
ee (不 会 等 到 最 后 ， 而 是 立刻 自 增 表 达 式 的 
值 Y 5 

B.5 语句 


B.5.1 声明 语句 





声明 语句 (declaration statement) 是 进行 变量 声明 的 语句 。 


声明 语句 为 











> 量 名 = 初始 化 表达 式 ; 








这 样 的 形式 “〈“= 初始 化 表达 式 ” 的 部 分 被 称 为 初始 化 (initializer) ) 。 


为 声明 语句 加 上 final ， 可 以 防止 对 应 变量 的 初始 值 被 履 盖 “禁止 再 次 
赋值 ) 。 


final int a = 10; 


在 final 的 声明 语句 中 ， 如 末 不 进行 初始 化 束 会 发 生 编译 错误 。 





使 用 const 关键 字 声 明和 名 量 。 


const HOURS_IN_DAY = 24;// 一 天 24 小 时 
const MINUTES IN DAY = HOURS _ IN DAY * 66;// 1 天 24 x 66 分 











在 常量 的 声明 中 ， 因为 通过 初始 值 可 以 判断 类 型 ， 所 以 const 无 需 指 定 
类 型 。 


B.5.2 表达 式 语句 
所 谓 表 达 式 语句 (expression statement) 就 是 在 表达 式 后 面 加 上 分 号 。 


// 调用 print() 函 数 的 表达 式 后 盏 
print("hello,world\n"); 















































// 目 增 表达 式 后 面 加 上 分 号 


i++; 

















// 无 副作用 的 表达 式 也 可 以 成 为 表达 式 语句 ， 但 没有 任何 意义 
5; 











B.5.3 “让 语句 


if 语句 是 根据 条 件 判断 并 处 理 分 文 的 语句 。 


if (条 件 表 达 式 1) { 

// 条 件 表 达 式 1 为 真 时 执行 的 处 理 。 
} elsif (条 件 表达 式 2) { 

// 条 件 表达 式 1 不 为 真 ， 且 条 件 表达 式 2 为 真 时 执行 的 处 理 。 









































} else { 
// 所 有 条 件 表 达 式 都 不 为 真 时 执行 的 处 理 。 








} 





elsif 子 句 和 else 子 句 都 是 可 以 省 略 的 。 男 外 ， 可 以 编写 任意 多 
个 elsif 子 句 。 与 C 等 语言 不 同 的 是 ， 只 包含 一 行 语句 也 不 能 省 略 花 括 
7 RE 








B.5.4 switch 语句 





switch 语句 是 进行 多 分 支 处 理 的 语句 。 


switch(a) 
case 1 1{ 
// a 等 于 1 时 执行 
} case 2,3 { 
// a 等 于 2 或 3 时 执行 


} default { 
// a 不 等 于 上 面 的 、2、3 时 执行 





} 





Diksam 的 switch 语句 与 C 语 言 的 fall through 不 同 。 在 匹配 了 一 个 case 
之 后 ， 即 使 没有 在 分 支 中 写 break ， 也 不 会 交 由 下 一 个 case 处 理 。 另 
外 ， 各 case 子 句 必须 使 用 花 括 号 〈{} ) 括 起 来 。 

在 为 针对 个 值 进行 相同 处 理 的 时 候 ， 值 之 间 以 逐 号 分 隔 。 

如 果 没 有 匹配 任何 一 个 case 子 句 的 话 ， 就 会 执行 default 子 句 。 

各 case 子 句 在 以 下 代码 成 立时 就 会 执行 。 

FP 摘 述 的 表达 式 == case 中 描述 的 表达 式 


























虽然 只 能 使 用 == 运算 符 ， 但 是 表达 式 的 类 型 没有 限制 。 然 而 ， 在 == 两 
边 为 了 匹配 类 型 会 进行 类 型 转换 ， 在 switch 中 却 不 会 进行 类 型 转换 。 


B.5.5 ”while 语句 


while 语句 是 进行 循环 操作 的 语句 。 


标识 符 : 
while (条 件 表达 式 ) { 
// 在 条 件 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 


























} 





“标识 符 :” 的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 
与 if 语句 相同 ， 即 使 只 包含 一 行 语句 也 不 能 省 略 花 括号 〈{} ) 。 


B.5.6 do while 语 句 


do while 语句 是 进行 后 判断 型 的 循环 操作 语句 。 


标识 符 : 
do { 
// 这 个 位 置 的 代码 最 初 必须 执行 一 次 ， 














// 之 后 ， 在 条 件 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 
} while (条 件 表达 式 ) ; 





“标识 符 :” 的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 
与 if 语句 相同 ， 即 使 只 包含 一 行 语句 也 不 能 省 略 花 括号 ({}+ ) 。 
B.5.7 ”for 语句 


for 语句 是 进行 循环 操作 的 语句 。 


标识 符 : 
for 《第 1 表达 式 ; 第 2 表达 式 ; 第 3 表达 式 ) 
// 在 第 2 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 


























} 





“标识 符 :” 的 部 分 被 称 为 标签 〈label) 。 标 签 可 以 省 略 。 


上 述 for 语句 ， 除 了 在 continue 时 会 执行 第 3 表达 式 之 外 ， 其 他 与 下 面 
的 while 语句 效果 相同 。 
第 1 表达 式 ; 
while (第 2 表达 式 ) { 
# 语句 











第 3 表达 式 ; 





第 1 表达 式 、 第 2 表达 式 、 第 3 表达 式 者 是 可 以 省 略 的 。 在 省 略 了 第 2 表达 
式 时 ， 意 味 独 永远 返回 真 。 





B.5.8 return 语 名 


return 语句 是 从 函数 中 跳出 的 语句 。 


return 表达 式 ; 


在 函数 为 void 类 型 的 时 候 ， 如 果 写 了 return 表达 式 的 话 会 报错 。 
B.5.9 ”break 语句 


break 语句 是 用 于 跳出 循环 的 语句 。 


break 标识 符 ; 


标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 跳 出 最 内 侧 的 循环 。 
在 指定 了 标识 符 的 情况 下 ， 跳 出 持 有 同样 标识 符 的 循环 。 
B.5.10 continue 语句 


continue 语句 用 于 跳 转 到 循环 的 末尾 。 


continue 标识 符 ; 


标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 以 最 内 侧 的 循环 为 对 象 。 

在 指定 了 标识 符 的 情况 下 ， 以 持 有 同样 标识 符 的 循环 为 对 象 。 

在 以 for 为 对 象 进行 continue 的 时 候 ，continue 后 会 紧 接 着 对 for 话 
句 的 第 3 表达 式 进 行 计算 。 

在 以 do while 为 对 象 进行 continue 的 时 候 ， 会 对 下 一 次 的 条 件 表达 


式 进 行 计算 ， 如 果 结 果 为 假 则 终止 循环 。 


B.5.11 try 语句 





try 语句 是 用 于 执行 异常 处 理 的 语句 。 





// 语句 





在 try 子 句 中 如 果 发 生 了 异常 ， 就 会 执行 catch 子 句 ， 会 在 catch 子 句 
中 按照 从 上 到 下 的 顺序 搜索 与 发 生 的 异常 类 匹配 的 catch 子 句 。 如 果 有 
匹配 的 catch 子 句 ， 则 会 转移 处 理 位 置 ( 抛 给 上 一 层 或 者 终止 处 理 ) 。 

发 生 的 异常 会 被 设置 到 catch 子 句 声明 的 变量 中 。 这 个 变量 默认 

为 final ， 不 可 以 再 次 赋值 。 


finally 子 句 无 论 异 名 是 否 发 生 ， 也 不 论 是 否 有 匹配 的 catch 子 句 ， 都 
一 定 会 执行 。 在 try 子 句 或 者 catch 子 句 中 即使 是 执行 了 break 
、Continue 、return 来 中 断 处 理 ， 也 会 执行 finally 子 句 。 如 果 使 
用 break 、continue 、return 来 中 断 finally 子 句 的 话 ， 就 会 发 生 
编译 错误 。 











B.5.12 throw 语句 


throw 语句 是 用 于 抛 出 异常 的 语句 。 
在 通常 情况 下 ， 可 以 像 下 面 这 样 显 式 地 为 表达 式 指定 异常 。 


在 try 子 句 内 发 生 的 异常 ， 如 果 存 在 与 其 对 应 的 catch 子 名 的话， 就 会 被 





catch 子 句 捕获 。 如 果 不 存 在 与 其 对 应 的 catch 子 句 ， 或 者 异常 发 生 
在 try 语句 之 外 的 时 候 ， 会 终止 当前 正在 执行 的 函数 并 返回 到 调用 者 
(或 者 叫 上 一 层 ) 的 处 理 中 。 如 果 调 用 者 也 没有 catch 这 个 异常 的 话 ， 
则 会 沿 着 调用 层级 回溯 直到 顶层 结构 。 如 果 顶 层 结果 中 也 没有 捕捉 这 个 
异常 的 话 ， 就 会 输出 栈 轨迹 (stack trace) 并 终止 处 理 。 


Diksam 的 栈 轨 迹 在 腊 常 throw 的 时 候 会 被 清空 ， 并 在 返回 到 调用 函数 的 
层级 或 者 中 断 顶 层 结构 执行 的 时 候 被 再 次 设置 。 





因此 ， 在 catch 子 句 中 直接 再 次 抛 出 捕获 的 异常 时 ， 如 果 不 想 清 除 当前 
的 栈 轨 迹 ， 可 以 像 下 面 这 样 单独 使 用 throw; 。 


(参数 序列 ) throws 子 句 { 








throws 子 句 可 以 省 略 。throws 描述 了 在 这 个 函数 中 有 可 能 会 发 生 的 异 
和 常 ， 用 逗号 分 隔 并 一 一 列 出 。 
如 下 例 所 示 。 








// 接收 两 个 整数 型 参数 并 返回 它们 的 和 的 函数 
int sum (int a, int b) { 
return a + b; 





} 


// 以 数组 和 索引 值 为 参数 ， 

// 返回 指定 位 置 的 元 素 的 函数 。 

int get at(int[] array, int index) 
throws ArrayIndexOutOfBoundsException { 
return array[index|]; 





函数 的 形式 参数 与 已 经 赋值 的 final 局 部 变量 的 使 用 方法 一 致 。 因 此 ， 
不 能 赋值 给 形式 参数 。 


B.6.2 ”函数 的 签名 声明 





当 函 数 被 定义 在 其 他 源 文件 中 的 时 候 ， 束 要 像 下 面 这 样 ， 以 搬 述 签名 声 
明 的 方式 ， 让 调用 了 这 个 函数 的 表达 式 可 以 顺利 编译 。 


int func(bouble x); 


与 C 语 言 的 原型 声明 不 同 ， 在 Diksam 中 不 能 省 略 形式 参数 的 名 称 (上面 
的 x ) 。 男 外 ， 形 式 参 数 的 名 称 也 属于 这 个 类 型 的 一 部 分 ， 在 与 函数 定 
义 不 一 致 的 时 候 就 会 发 生 错 误 。 


例如 下 面 的 签名 声明 。 


void draw_ line(double x1, double y1，double x2, double y2); 


与 此 相对 ， 就 不 允许 像 下 面 这 样 的 函数 定义 。 


void draw line(double x1, double x2, double y1，double y2); 


B.6.3 局 部 变量 














在 函数 内 声明 的 变量 束 是 局 部 变量 (local variable) 。 


局 部 变量 的 作用 范围 是 满足 下 面 两 个 条 件 的 范围 (现在 ， 局 部 变量 的 作 
用 范围 不 受 程序 块 的 影响 ) 。 


。 在 声明 之 后 
。 在 包含 其 声明 的 程序 块 内 





局 部 变量 的 生命 周期 随 着 它 所 在 函数 的 退出 而 终止 。 


B.7 类 /接口 的 定义 


i 符 class 类 名 
: 超 类 ， 要 实现 的 接口 (多 个 ) 1{ 

















字段 、 方 法 、 构 造 方法 的 定义 





类 修饰 符 有 以 下 两 种 。 


。 访问 修饰 符 (access modifier) 。 可 以 指定 为 public 或 者 不 指定 。 
。 abstract 修 饰 符 。 可 以 指定 或 者 不 指定 。 


访问 修饰 符 与 abstract 修 饰 符 的 顺序 不 同 。 

当 访 问 修饰 符 指定 了 public 的 时 候 ， 这 个 类 就 可 以 被 别 的 包 使 用 了 。 
如 果 不 指 定 的 话 ， 就 只 能 在 当前 包 中 使 用 。 

指定 了 abstract 的 类 被 视 为 抽象 类 (abstract class) 。 抽 象 类 不 能 通 


过 new 将 其 实例 化 。 相 反 ， 没 有 指定 abstract 的 类 被 称 为 具象 类 
(concrete class) ， 其 中 不 能 包含 abstract 方法 。 


超 类 和 要 实现 的 接口 与 C++、C# 相 同 ， 在 冒号 后 面 以 逗号 分 隅 并 一 一 列 
出 《顺序 不 同 ) 。 在 不 需要 继承 的 情况 下 ， 可 以 省 略 冒 号 。 


在 Diksam 中 对 于 类 来 说 只 能 单 继 承 。 另 外 ， 在 Diksam 中 不 能 继承 具象 
光 
Ro 


接口 可 以 被 多 继承 。 














B.7.2 接口 定义 


接口 通过 以 下 的 形式 定义 。 





访问 修饰 符 interface 接口 
// 方法 定义 





} 





接口 除了 只 能 记录 abstract 方法 外 ， 其 他 的 功能 与 类 相同 。 


访问 修饰 符 与 类 相同 ， 可 以 指定 或 者 不 指定 public 。 接 口 一 定 要 加 
上 abstract ， 如 果 不 指 定 abstract 就 会 发 生 编 译 错误 。 


在 Diksam 中 ， 接 口 不 能 继承 其 他 接口 。 
B.7.3 ”字段 定义 
字段 通过 以 下 的 形式 定义 。 
访问 修饰 符 final 修 饰 符 类 型 字段 名 初始 化 语句 〈 表 达 式 ) ; 
针对 字段 的 访问 修饰 符 有 public 、private 和 不 指定 。 它 们 拥有 不 同 
的 含义 ，public 可 以 在 其 他 包 中 使 用 ， 不 指定 的 话 可 以 在 本 包 内 被 使 
用 ，private 只 能 在 当前 类 内 被 使 用 。 
如 果 指 定 final 修饰 符 ， 这 个 字段 就 不 能 被 赋值 了 。 





B.7.4 方法 定义 


方法 通过 以 下 的 方式 定义 。 


方法 修饰 符 类 型 方法 名 《〈 参 数 ， 可 以 是 多 个 ) throws 子 句 { 


语句 








} 





与 水 数 定义 一 样 ，throws 子 句 可 以 省 略 。 另 外 ， 在 加 上 了 abstract 修 
饰 符 后 ， 可 以 不 描述 方法 体 〈 包 含 了 语句 的 代码 块 ) 。 


方法 修饰 符 有 以 下 几 种 。 


。 访问 修饰 符 。public 、private 、 不 指定 。 
。 abstract 修 饰 符 。 可 以 指定 或 者 不 指定 。 


e。 virtual 修 饰 符 、override 修 饰 符 。 


没有 指定 virtual 修饰 符 的 方法 不 能 重 写 。 另 外 ， 如 果 要 重 写 方法 的 
话 ， 必 须 指定 override 修饰 符 。 


B.7.5 方法 重 写 








在 子 类 中 定义 与 父 类 或 者 所 继承 接口 的 方法 同名 的 方法 被 称 为 方法 重 写 
(method override ) 。 方 法 重 写 必 须 满 足以 下 条 件 。 


1. 重 写 与 被 重 写 的 方法 ， 参 数 个 数 必 须 一 致 。 

2. 进行 重 写 的 方法 的 参数 类 型 (相对 应 地 ) ， 必 须 与 被 重 写 方法 的 参 
数 类 型 一 致 ， 或 者 是 被 重 写 方法 的 参数 类 型 的 父 类 。 

3. 进行 重 写 的 方法 的 返回 值 类 型 ， 必 须 与 被 重 写 方法 的 返回 值 类 型 一 
致 ， 或 者 是 被 重 写 方法 的 返回 值 类 型 的 子 类 。 

4. 进行 重 写 的 方法 在 throws 中 列 出 的 异常 的 范围 要 比 被 重 写 方法 
在 throws 中 列 出 的 范围 小 。 

5. 进行 重 写 的 方法 的 访问 修饰 符 ， 要 比 被 重 写 方法 的 访问 修饰 符 的 限 
制 宽 松 许 多 。 

















B.7.6 构造 器 


构造 器 是 在 实例 创建 时 自动 调用 的 方法 。 


在 Diksam 中 ， 构 造 器 的 定义 需要 使 用 constructor 修饰 符 。 


public constructor initialize(){ 


// 记录 构造 器 的 处 理 





} 





上 面 的 例子 用 constructor 修饰 符 描述 了 与 类 型 名 名 称 相同 的 构造 方 
法 ， 因 此 必须 要 在 方法 前 加 上 public 和 virtual 方法 修饰 符 ， 以 便 在 
之 后 进行 重 写 。 


与 Java、C++、C# 不 同 ， 在 Diksam 中 可 以 给 构造 器 任意 起 名 字 。 在 new 








实例 的 时 候 ， 使 用 以 下 的 形式 指定 构造 占 。 


























如 果 不 指定 方法 名 ， 只 写成 new Point(x，y); 的 话 ， 会 调用 名 
为 initialize 的 构造 器 。 另 外 ， 在 类 定义 的 时 候 ， 如 果 一 个 构造 髓 也 
没有 定义 的 话 ， 编 译 器 会 自动 创建 如 下 的 默认 构造 器 〈default 


constructor) 。 


public virtual constructor initialize(){ 


super.initialize(); <* 仅 限于 存在 超 类 的 情况 

















} 





Diksam 的 构造 器 可 以 在 子 类 中 进行 章 写 。 但 是 ， 构 造 右 并 不 会 进行 
B.7.5 市 中 写 到 的 参数 和 返回 值 的 检查 。 


男 外 ， 构 造 桌 仅 限 于 在 创建 实例 的 时 候 使 用 ， 在 实例 被 创建 以 后 ， 构 造 
器 并 不 能 像 普通 方法 那样 被 调用 。 


B.8 程序 库 
在 这 里 收录 了 Diksam 标 准 程序 库 (ibrary) 中 具有 代表 性 的 函数 和 类 。 
B.8.1 函数 


void print(string str); 


问 标 准 输出 中 输出 作为 参数 接收 的 字符 串 。 


void println(string str); 


回 标 准 输 出 中 输出 作为 参数 接收 的 字符 串 ， 并 在 结尾 处 加 上 换行 符 。 


File fopen(string file name, string mode); 


打开 文件 。 参 数 的 设计 以 C 语 言 的 fopen() 为 基准 。 


string fgets(File file); 


从 file 指定 的 文件 中 读 取 一 行 ， 并 作为 返回 值 返 回 。 


void fputs(string str, File file); 
各 file 指定 的 文件 中 输出 str 。 


void fclose(File file); 
关闭 参数 file 指定 的 文件 。 


double to_ double(int int_value); 
将 int 转换 为 double 。 


int to_int(double double_ value); 
将 double 转换 为 int 。 


B.8.2 内 建 类 
e File 


File 类 相当 于 C 语 言 的 File* 类 型 。 其 内 部 以 native_pointer 类 
型 保存 了 C 语 言 的 File* ， 因 此 并 没有 存在 特别 的 方法 等 内 容 。 





e Exception 
Exception 类 是 所 有 弄 意 类 的 类 层级 的 项 端 。 
它 具 有 以 下 的 字段 和 方法 。 








public string message 


保存 了 卉 党 信息 的 字段 。 


public stackTrace[] stack trace; 


保存 了 栈 轨迹 的 字段 。 


void print_stack trace(); 


输出 栈 轨 迹 的 方法 。 
另外 ，StackTrace 类 的 定义 如 下 所 示 。 





class StackTrace { 
int line number; 
string file name; 
string function name; 


| 
附录 C Diksam Virtual Machine 指令 集 


本 章 将 要 展示 Diksam VM (DVM) 的 指令 集 一 览 表 ” 。 








* 在 语言 的 设计 中 似乎 列 出 了 一 些 不 支持 的 指令 ， 请 把 它们 看 作 是 不 能 保证 执行 正确 性 的 隐藏 功 


全 已 
HE。 








C.1 范例 
指令 
DVM 指 令 的 助 记 符 。 


操作 数 的 类 型 
byte 为 一 个 字 节 的 正 整数 ，short 为 两 个 字 节 的 正 整 数 〈 大 尾 
序 ) ，cp 指 的 是 常量 池 的 索引 值 ， 实 际 和 short 相同 。 


全 
口 
表示 当前 指令 的 含义 。 


栈 

表示 指令 执行 时 栈 的 变化 。[] 内 表示 参与 操作 的 栈 顶 值 的 类 型 。 右 端 
是 操作 后 的 栈 顶 。 在 DVM 中 没有 boolean 和 function 类 型 ， 实 际 上 它 
们 都 是 int 值 ， 只 不 过 为 了 容易 理解 而 写成 了 boolean 、function 。 


在 没有 给 出 运算 符 的 一 侧 《 箭 头 的 左 侧 ) ， 顺 序 是 有 意义 的 ， 
此 [int1 int2] 的 运算 结果 会 被 描述 为 [(int1 / int2)] 。 结 果 的 类 
型 以 C 语 言 的 运算 符 为 基准 ， 例 如 [(int1 > int2)] 的 类 型 为 boolean 











Since 


表示 指令 对 应 的 是 哪个 版 本 。 


C.2 指令 一 哎 表 





1 


push_int_1byte 


将 操作 数 指定 的 一 个 字 节 的 整 i 
数 入 栈 二 


osnine zoyte | pg 
jpushint |cp | 将 常量 池 中 的 int 常量 入 栈 |[] > [int] 
pushdoublee | | 将 ovole 常 量 0A 栈 |0> Idole] |o1 
push double1 | | 将 iouole 常 量 六 栈 |0> [dle] |o1 
将 常量 池 中 的 double 常量 入 术 
push_string cp | 将 常量 池 中 的 string 常量 入 覆 


| 将 栈 中 以 base 为 基准 以 操作 数 
Ts 
将 栈 中 以 base 为 基准 以 操作 数 
push_stack_double 9 值 入 |[] > [double] 
将 栈 中 以 base 为 基准 以 操作 数 
push_stack_string 4 值 入 |[] > [string] 


P 以 base 为 基准 以 操作 数 
push_stack_object 为 偏 移 量 的 位 置 的 opject 值 入 |[] > [object] 
栈 


仅 
0.1 
以 base 为 基准 以 操作 数 
人 
将 栈 中 以 base 为 基准 以 操作 数 

pop_stack_double 0 值 出 |[double] > [] 0.1 

仅 

0.1 

0.1 



















































































将 栈 中 以 base 为 基准 以 操作 数 
pop_stack_string ee 值 出 |[string] > [] 


PF 以 base 为 基准 以 操作 数 
pop_stack object Ce 值 出 [object] > [] 


i 以 操作 数 为 索引 值 ， 将 对 应 的 
push_static_int int 型 静态 变量 入 栈 [] > [int] 


以 操作 数 为 索引 值 ， 将 对 应 的 


push_static double short [] > [double] 























pop_static int 
pop_static double 
pop_static string 


pop_static object 


push_constant_int short 
push_constant_double short 


push_constant object short 
pop_constant_int 


pop_constant double 


pop_constant object 


push_array_int 


push_array_double 


push_array_object 


pop_array_int 


double 型 静态 变量 入 栈 

以 操作 数 为 索引 值 ， 将 对 应 的 
string 型 静态 量 入 栈 

以 操作 数 为 索引 值 ， 将 对 应 的 
object 型 静态 变量 入 栈 

将 栈 顶 的 值 出 栈 保存 为 int 型 静 
态 变量 ， 其 索引 值 由 操作 数 指 



































将 栈 顶 的 值 出 栈 保 存 为 double 
型 静态 变量 ， 其 索引 值 由 操作 
数 指定 

将 栈 顶 的 值 出 栈 保 存 为 string 
型 静态 变量 ， 其 索引 值 由 操作 




















将 栈 顶 的 值 出 栈 保存 为 object 
型 静态 变量 ， 其 索引 值 由 操作 
数 指定 
将 操作 数 指定 索引 值 的 int 型 常 
量 入 栈 














的 double 











的 object 


顶 的 值 出 栈 保 存 为 int 型 第 
操作 数 指定 

将 栈 顶 的 值 出 栈 保 存 为 double 

型 常量 ， 其 索引 值 由 操作 数 指 
下 


将 栈 顶 的 值 出 栈 保存 为 opject 
型 常量 ， 其 索引 值 由 操作 数 指 


夺 


根据 栈 中 的 数组 和 下 标 获 取 数 
组 中 的 元 素 (int 型 ) ， 并 将 
入 栈 

根据 栈 中 的 数组 和 下 标 获取 数 
组 中 的 元 素 (double 型 ) ， 并 
将 其 入 栈 


根据 栈 中 的 数组 和 下 标 获取 数 
组 中 的 元 素 (object 型 ) ， 并 
将 其 入 栈 


将 栈 上 的 值 (int1 ) 赋值 给 数 













































































[] > [string] 
[] > [object] 0 


[int] > [] 0.1 
[double] > [] 
[string] > [] 


men 
re 
0 


[] > [object] 


[int] > [] 


[double] > [] 5 


[object] > [] 


[array int] > 
[int] 


[array int] 
[double] 


[array int] 
[object] 





ve array int2] 0.2 


组 array 中 下 标 为 int2 的 元 素 
ee 将 栈 上 的 值 (double ) 赋值 给 | [double array 3 
ae 数组 array 中 下 标 为 int 的 元 素 | int] > [] 
op arrav object 将 栈 上 的 值 (object ) 赋值 给 [object array 02 
| 数组 array 中 下 标 为 int 的 元 素 |int] > [] | 


从 栈 顶 获取 索引 值 ， 并 取得 栈 
中 排 在 第 三 个 位 置 的 字符 串 ， [string int] > 0 














push_character in string 将 字符 串 中 与 索 纪 值 对 应 (从 0 | [int] 
开始 ) 的 字符 的 字符 编码 入 栈 


从 栈 中 对 象 的 字段 中 〈 由 操作 
push_field_int 数 指 定 索 引 值 ) 取得 int 型 的 值 | [object] > [int] 











并 将 其 入 栈 

从 栈 中 对 涌 的 子 段 由 《四 操作 | 
push_field double 数 指定 索引 值 ) 取得 douple 型 pe i 

的 值 并 将 其 入 栈 














的 值 并 将 其 入 栈 


将 栈 中 int 型 的 值 出 栈 ， 并 赋值 
pop_field int 给 栈 中 指定 对 象 的 字段 (由 操 |[int object] > [] 
作 数 指定 索引 值 ) 


将 栈 中 double 型 的 值 出 栈 ， 并 
pop_field_double 赋值 给 栈 中 指定 对 象 的 字段 。 |19* ec > 





0 
0 
0 
0 


从 栈 中 对 象 的 字段 中 《由 操作 | | 
push_field_object 数 指定 索引 值 ) 取得 object 型 | - 


4 
3 
~ 
3 
3 
3 
6 




















(由 操作 数 指定 索引 值 ) 


0 
将 栈 中 object 型 的 值 
Be Cobject1) 出 栈 ， 并 赋值 给 栈 | [object1 object2] 0 

















中 指定 对 象 object2) 的 字段 |* [] 
《由 操作 数 指定 索引 值 ) 


进行 [double double] > 

上 二 栈 ee 
add_string 进行 string 间 的 加 法 运算 ， 3 0.1 
一 将 结果 入 栈 string2)] | 

| 进行 [int1 int2] > 

sub_int [(int1 - int2)] |0.1 
0.1 
1 










































































二 4 一 间 的 减法 运算 ，3 [double1 double2] 
sub_double Ny 1 > [(doubjlel - 5 
double2)] 
\ 半 0 一 B= 了 人 和 
mul_int | int int] > [int] | 0. 
本 栈 [ ] > [int] 





























mul_double 


div_double 


mod_int 
wm | 


EE 
“| 


bit xor 


mm | 
rr 


bit_not 











进行 double 间 的 乘法 运算 ， 并 
将 结果 入 栈 

















行 int 间 的 除法 i 
果 入 栈 


进行 double 间 的 除法 运算 
将 结果 入 栈 


行 int 间 的 模 运 算 ， 并 将 结 






































进行 double 间 的 模 和 运算， 并; 
结果 入 栈 

按 位 进行 与 运算 (int 之 间 ) ， 
并 将 结果 入 栈 

按 位 进行 或 运算 (int 之 间 ) ， 
并 将 结果 入 栈 

按 位 进行 异 或 运算 (int 之 
间 ) ， 并 将 结果 入 栈 





























按 位 进行 非 运算 ， 并 将 结果 入 
栈 〈 将 栈 顶 的 int 值 按 位 取 反 





[double double] > |0.1 
[double] 


[int1 int2] 
[(int1 / int2)] 


[doublel1 double2] 
> [(doublel1 / 
double2)] 


[int1 int2] > 
[(int1 % int2)] 


[doublel1 double2] 
> [(fmod(double1， 
double2))] 


[int int] > [int] |0.4 
[int int] > [int] 
[int int] > [int] |0. 


(en) 


0.1 


[em 
上 


SS © 二 
一 ~” ~” ~ 


心 


(em 


Ms) 
上 一 


[int] > [int] 


之 
人 


cast_int to double 


cast double to int 


cast boolean to string Wa a 


cast int to _ string | 


cast_double to string | 所 


cast_enum_to_string | 将 








将 栈 项 的 int 值 转换 为 double 


顶 的 double 值 转换 为 int 


true 或 者 false) 
顶 的 int 值 转换 为 字符 是 
顶 的 double 值 转换 为 字符 


将 








将 


顶 的 enum 值 转换 为 字符 

将 栈 顶 指向 对 象 的 引用 向 上 转 
型 为 操作 数 指定 的 类 或 者 接口 
将 栈 顶 指向 对 象 的 引用 向 下 转 
型 为 操作 数 指定 的 类 或 者 接口 
J 了 int 间 的 比较 (== ) 并 将 
































果 入 栈 























顶 的 boolean 值 转换 为 字符 


[int] > [double] 


[double] > [int] 


[boolean] > 


[double double] > 


eq_double 


ge_int 


ge_double 


le _ string 


ne_double 


将 结果 入 栈 





进行 object 间 的 比较 
4 结果 入 栈 


进行 string 间 的 比较 
将 结果 入 栈 


























结果 入 栈 


进行 字符 串 间 的 比较 〈>/ 字 
顺序 〉 并 将 结果 入 栈 























将 结果 入 栈 

















顺序 ) 并 将 结果 入 栈 























进行 字符 串 间 的 比较 〈</ 字 
贰 序 ) 并 将 结果 入 栈 














行 int 间 的 比较 (>=) 并 ; 


进行 字符 串 间 的 比较 (>=/ 字 


进行 int 间 的 比较 〈<=) 并 ; 


























顺序 ) 并 将 结果 入 栈 








使 用 ! =) 并 将 结果 入 栈 




















较 时 使 用 ! 





进行 字符 串 间 的 比较 〈<=/ 字 典 


进行 double 间 的 比较 (内 容 比 
=) 并 将 结果 入 栈 


进行 int 间 的 比较 “> ) 并 将 结 


进行 double 间 的 比较 (>) 并 将 


进行 double 间 的 比较 (>=) 并 


典 


进行 double 间 的 比较 (<=) 并 
将 结 栈 


进行 int 间 的 比较 (内 容 比 较 时 


[boolean] 0.1 


[object object] > 0.2 
[boolean] i 
[string string] > 01 
[boolean] “ 
[int1 int2] > 01 
[(int1 > int2)] 
[doublel1 double2] 
> [(double1 > 0.1 
double2)] 
[string1 string2] 
[(wcscmp(string1, 0.1 
string2) > 6)] 

团 


[int1 int2] > 
[(int1 >= int2)] 


[doublel1 double2] 
> [(doublel1 >= 1 
double2)] 
[string1 string2] 
> 
[(wcscmp(string1, 0.1 
string2) >= 6)] 
[int1 int2] > 01 
[(int1 < int2)] ; 
[doublel1 double2] 
> [(doublel < 0.1 
double2)] 
[string1 string2] 
[(wcscmp(string1, 0.1 
string2) < 6)] 

加 


[int1 int2] > 
[(int1 <= int2)] 


[doublel1 double2] 

> [(double1 “= 0.1 
double2)] 

[string1 string2] 

> 

[(wcscmp(string1，| 0.1 
string2) <= 6)] 


[int int] > 

攻 
[double double] > 
a 





ne_object 


wm | 
or | | 


EE 


duplicate offset 


push_method 
push_delegate 


push_method delegate 


invoke delegate 


return 
new_array 


new_array_literal int 


te, short 


\ 辣 


进行 object 间 的 比较 (内 容 比 
较 时 使 用 ! =) 并 将 结果 入 栈 


[boolean] 
行 string 间 的 比较 (内 容 比 


进 [string string] > 0.1 
较 时 使 用 ! =〉 并 将 结果 入 栈 [boolean] 
放下 如 > | [boolean boolean] 

将 逻辑 与 (AND) 的 结果 入 本 
必 曙 诅 起 pot > [boolean boolean] 


将 栈 顶 的 值 取 罗 辑 反 (NOT) 
ET 
SN 


复制 距离 栈 顶 的 第 n《〈 操 作 数 ) 和 
个 元 素 并 将 其 入 栈 


| 
跳 转 到 操作 数 指定 的 地 址 


如 果 栈 顶 的 值 为 true ， 则 跳 转 

到 操作 数 指定 的 地 址 

如 果 栈 顶 的 值 为 false ， 则 跳 转 | bus ,1 jo1 

到 操作 数 指定 的 地 址 

将 操作 数 指定 的 函数 的 索引 值 日 -reao |o 
Ee 
[2 


入 栈 
创建 栈 中 对 象 中 以 操作 数 为 索 

[object] > 
[object] 





[object object] > | 0.2 


一 、 



































[] > [object] 




















引 值 的 方法 入 栈 


通过 函数 的 索引 值 创建 delegate 
并 将 其 入 栈 


| 建 栈 中 对 象 中 以 操作 数 为 索 
ee ， 并 将 
入 栈 


调用 栈 顶 的 函数 [function] > [xx] |0.1 
调用 栈 顶 的 delegate [object] > [xx] 0.4 


以 栈 项 的 值 作为 返回 值 并 将 函 


数 return 
[size1 size2 ... 


> [array] 





4 





























be 
人 























对 操作 数 short 指定 的 索引 值 的 
类 进行 new 操作 
创建 以 操作 数 short 所 示 类 型 组 
成 的 byte 维 数组 (用 栈 中 指定 
个 数 的 元 素 ) ， 并 将 其 入 栈 
以 已 经 入 栈 的 给 定数 量 的 int 类 
型 的 操作 数 为 元 素 创 建 数组 ， 
并 将 其 入 栈 


0 





























[int1 int2 int3 
...] > [array] 





= 
[BS 


: O : 9 
NJ CD 一 





以 已 经 入 栈 的 给 定数 量 的 double | [doublel double2 





new_array_literal double | short 类 型 的 操作 数 为 元 素 创 建 数 double3 ...] > 0.2 
组 ， 并 将 其 入 栈 [array] 


以 已 经 入 栈 的 给 定数 量 的 object [object1 object2 
new_array_literal object | short 类 型 的 操作 数 为 元 素 创建 数 object3 ... 0.2 
组 ， 并 将 其 入 栈 ere 








将 栈 顶 的 对 象 引 用 的 vtable 转 换 | [object] > ps 
为 它 父 类 的 [object] 

栈 顶 的 对 象 是 否 属于 操作 | [object] > 了 
数 的 索引 值 所 对 应 类 的 实例 。 “| [boolean] 
人 

















抛 出 栈 顶 的 异常 ae a 


把 当前 的 程序 计数 器 入 栈 , 并 ||] 。rpcj 
跳 转 到 操作 数 所 示 的 地 址 


在 异常 状态 下 throw 捕获 的 异 
常 。 在 非 异常 状态 的 时 候 ， 返 
finally_end 回 到 通过 `go_finally` 跳 转 过 来 ”|[pc] > [] 0.4 
I 《从 栈 中 恢复 程序 计数 
全 ) 



































编程 语言 实用 化 指 商 一 一 写 在 最 后 


在 本 书 中 ， 我 们 一 起 制作 了 crowbar 和 Diksam 两 种 编程 语言 。 让 我 感到 
be 
言 的 水 准 。 


亲爱 的 读者 朋友 们 ， 硕 望 你 们 也 能 尝试 制作 属于 自己 的 编程 语言 。 不 过 
说 出 来 你 们 可 能 会 大 跌眼镜 编程 语言 的 魅力 基本 上 是 由 它 的 程序 库 
来 决定 的 ， 而 这 是 不 容 争 辨 的 事实 。 


例如 ，Perl 由 于 正则 表达 式 等 强 有 力 的 字符 串 处 理 功 能 得 到 了 广泛 的 应 
用 。 在 Perl4 的 时 候 ， 作 为 编程 语言 ，Penl 既 没有 引用 ， 也 不 能 创建 数据 
结构 ， 可 以 说 很 难 用 。 但 是 ， 因 为 它 处 理 文本 文件 十 分 方便 ， 所 以 得 到 
了 广泛 使 用 。 同 样 ，PHP 也 因为 提供 了 很 多 面 癌 网 页 应 用 的 功能 而 得 到 
和 


因此 ， 我 在 发 明了 crowbar 和 Diksam 两 种 语言 后 ， 为 它们 加 载 了 各 上 自 的 
程序 库 。 


人 我 为 crowbar 加 载 了 鬼 车 ， 使 它 具 有 用 正则 表达 式 处 理 文 本 的 能 


























在 Diksam 中 我 用 crowbar 来 处 理 文本 。 在 文本 处 理 这 个 领域 里 已 经 有 了 

Perl、Ruby 等 语言 ， 因 此 就 算是 为 此 特地 制作 一 门 语言 也 不 会 得 到 广泛 
普及 。 用 来 开发 Web 应 用 的 编程 语言 更 是 琳 环 满目 ， 比 如 PHP、Perl、 

Ruby、Java、ASP、ASP.NET 等 ， 在 这 个 领域 中 还 充斥 着 各 种 框架 ， 可 
以 说 是 一 个 大 杂烩 。 租 赁 服务 器 更 是 让 人 头疼 ， 好 不 容易 做 的 网 页 应 

0 
肖 丧 了 。 


因此 ， 我 考虑 让 Diksam 定 位 为 “让 初学 者 可 以 制作 简单 游戏 的 语言 ”。 
在 很 早 之 前 ， 我 自己 就 是 这 样 走 上 了 编程 的 道路 。 
那个 时 候 (1980 年 左右 〉 的 个 人 电脑 ， 大 多 将 BASIC 作 为 标准 配置 。 那 














个 时 候 的 编程 语言 没有 IF 语句 中 begin ~end 或 者 { } 之 类 的 程序 块 的 
概念 ， 选 择 分支 的 时 候 必 须 使 用 GOTO 行 号 的 方式 进行 跳 转 。 也 没有 循 
环 结构 的 FOR 语句 。 要 在 循环 外 面 记录 循环 计数 右 后 ， 再 使 用 GOTO 进 
行 跳 转 。 昌 然 可 以 使 用 GOSUB 制作 子 程序 ， 但 是 不 能 定义 局 部 变量 ， 所 
有 变量 都 要 当做 全 局 变量 来 处 理 。 此 外 ， 变 量 名 字 不 看 到 第 2 个 字符 ， 

是 区 分 不 出 来 的 ”。 当 然 ， 这 是 时 代 的 选择 ， 不 过 ， 当 时 的 BASIC 作 为 
编程 语言 来 说 还 真是 不 怎么 样 。 


*Visual Basic 的 名 字 虽 然 继 了 水 了 Basic， 但 其 实 是 完全 不 同 的 另 一 种 语言 。 


即使 如 此 ， 我 当时 只 用 了 几 十 行 代码 就 可 以 写 一 款 射击 游戏 用 字 
符 “L” 当 做 炮台 来 击落 用 字符 “0-” 做 成 的 飞碟 )。 我 觉得 这 个 过 程 十 分 
有 趣 ， 这 也 是 我 路 上 编程 学 习 道路 的 第 一 步 。 


但 是 对 于 现在 的 年 轻 人 来 说 ， 却 不 知道 怎么 去 实现 一 区 简单 的 游戏 。 


现在 这 些 PC 的 性 能 与 当时 相 比 可 以 说 有 了 飞跃 性 的 提高 ， 也 出 现 了 各 
种 各 样 的 编程 语言 和 免费 的 处 理 器 。 但 是 ， 比 如 在 C 语 言 中 ， 使 用 不 依 
赖 处 理 器 的 标准 C， 束 连 窗 体 都 打 不 开 。 即 便 只 是 在 Windows 中 能 够 运 
行 起 来 的 程序 ，C 语 言 也 要 通过 Windows 的 API 来 创建 窗口 ， 如 此 复杂 的 
程序 初学 者 根本 应 付 不 来 。 


我 觉得 在 现在 C 语 言 的 入 门 书 中 ， 多 半 从 “hello,world. ”开始 介绍 许 
多 命令 行程 序 。 但 是 ， 我 在 中 学 时 代 ， 从 最 开始 就 能 写 出 

和 “hello,world. ” 拳 不 多 的 程序 ， 接 着 束 编 了 猜 数 字 游 戏 ， 然 后 就 想 
着 要 做 一 款 打 飞碟 的 游戏 了 。 当 今 ， 计 算 机 已 经 十 分 先进 ， 但 人 们 在 这 
个 方面 反而 退化 了 。 


当然 ， 现 在 不 仅 可 以 使 用 C 语 言 ， 也 考虑 使 用 Java。Java 中 的 GUI 可 以 不 
依赖 于 处 理 器 ， 因 此 也 可 以 把 游戏 做 成 Applet 发 布 在 网 站 上 ， 在 朋友 面 
前 炫耀 一 把 。 但 这 样 一 来 ， 在 创建 类 的 时 候 就 需要 继承 一 种 叫 

作 java.applet.Applet 的 类 ， 并 重 写 它 的 init() 和 paint() 之 类 的 
方法 。 这 里 突然 出 现 了 很 多 面向 对 象 的 知识 ， 初 学 者 一 时 之 间 很 难 接 

受 。 也 许 有 人 会 觉得 我 又 在 这 里 老 调 重 弹 了 ， 但 是 仔细 想 想 ， 为 了 从 

GUI 接收 输入 ， 就 必须 要 创建 事件 监听 器 、 实 现 特定 的 接口 ， 除 此 之 外 
还 需要 使 用 内 部 类 和 匿名 类 。 这 些 还 没完 ， 因 为 制作 的 是 实时 游戏 ， 为 
了 实现 动画 效果 还 需要 使 用 多 线程 进行 异步 处 理 。 这 些 对 于 一 个 新 手 来 
说 简直 是 个 中 梦 。 






























































再 者 ， 制 作 “ 打 飞碟 ”这 样 一 蒜 游 戏 对 于 JavaScript 来 说 也 不 是 很 容易 。 可 
以 制作 FLASH 的 语言 ActionScript， 它 的 标准 处 理 器 又 不 是 免费 的 。 


HSP (Hot Soup Processor) 语言 是 我 在 中 学 时 代 玩 过 的 类 似 于 BASIC 的 
语言 。 不 过 ， 很 对 不 起 这 门 语言 的 fans， 这 门 语言 本 身 和 与 它 同 时 代 的 
BASIC 如 出 一 略 ， 因 此 对 于 刚 开 始 学 习 编 程 的 人 来 说 非常 不 推荐 。 它 其 
至 没有 GOSUB”。 





* 从 HSP3 开 始 可 以 通过 函数 实现 。 


因此 ， 我 在 Diksam 中 加 载 了 可 以 让 “ 打 飞 碟 ” 游 戏 实现 起 来 更 为 简单 的 程 
序 库 ”。 


* 这 种 情况 仅 限 于 Windows 平 台 。 


因为 要 制作 的 游戏 非常 简单 ， 所 以 无 须 特 音 想 着 面向 对 象 和 事件 驱动 的 
概念 。 例 如 “ 打 飞 碟 ” 游 戏 可 以 写成 下 面 这 样 。 


代码 清单 “ 打 飞 碟 ” 游 戏 的 程序 (ufo.dkm) 


























: require diksam.window; 





1 
和 2: 
3: // 创建 设置 窗 体 属性 的 NindowAttribute 对 象 。 

4: WindowAttribute attr = create window attribute(); 
5 

6 

7 

8 




















: // 设置 背景 色 为 黑色 。 
: attr.background = create solid_ brush(6, 6, 909); 














: // 创建 窗 体 。 如 果 使 用 默认 设置 就 可 以 ， 
9: // 那么 不 创建 attr 传 入 nul1 即 可 。 
16: Window w = create window("UFO 游戏 "，8866，6866，attr); 











12: // 使 用 x 键 终止 程序 。 

13: w.set destroy proc(window destroy and exit); 
14: // 显示 窗 体 。 

15: w.show(); 














17: // 为 了 描绘 窗 体 取得 Graphics 接 口 。 

18: Graphic g = w.get graphics(); 

19: // 将 字符 的 背景 色 设置 为 黑色 。 

26: g.set background color(new Color(6，86，68)); 























22: // 战 车 、 激 光 、UF0 的 颜色 设置 。 
23: Color tank color = new Color(66，255，166) ; 








24 : 
25 : 
26 : 
27 : 
28 : 
29 : 
30: 
31: 
32: 
33: 
34: 
35 : 
36 : 
37 : 
38 : 
39 : 
40: 
41: 
42: 
43: 
44: 
45 : 
46 : 
47 : 
48 : 
49 : 
50: 
51: 
52: 
53: 
54: 
55 : 
56 : 
57X : 
58 : 
59 : 
60: 
61: 
62: 
63: 
64: 
65: 
66: 
67: 
68: 
69: 
70: 
71: 


Color ufo color = new Color(60, 255, 255); 
Color beam color = new Color(255, 255, 1060); 
// 生成 字体 。 详 细 的 设置 (FontAttribute) 

// 与 WindowAttribute 相 同 ， 当 前 默认 为 null。 
Font font = create font(25, null); 











// 随机 数 的 初始 化 


randomize(); 




















// 游戏 结束 后 再 开始 使 用 的 循环 


for(;;){ 











// 设 定 炮 台 (tank) 、ufo 的 坐标 。 将 tank_x，ufo_x，ufo_y 的 
// 当前 华 标 赋值 给 prev， 作 为 前 一 次 绘制 的 坐标 (消除 时 使 用 〉。 
// ufo_next_x,y 作 为 ufo 的 移动 目标 的 坐标 。 

// ufo 将 在 ufo_next_x,y 的 附近 移动 ， 

// 但 如 果 两 次 至 标 基本 相同 ， 则 重新 设 定 ufo_next_x,y。 


int 
int 
int 
int 
int 
int 
int 



































tank x = 0; 

ufo x = 9; 

ufo_y = 

ufo prev x = ufo x; 


ufo_prev y = ufo y; 
ufo_next x = random(7080); 
ufo_next y = random(450); 


// 是 否 存在 炮台 发 射 的 激光 的 标识 和 激光 坐标 


boolean beam flag = false; 


int 
int 
int 








beam prev_y; 
beam x; 
beam y; 


// 游戏 的 主 循 环 
for(;;){ 

















// 消除 前 一 次 画 出 来 的 UF0。 
g.draw_string(font, ufo color, ufo prev x, ufo prev _y," 
// 绘制 UF0。 
g.draw_string(font, ufo color, ufo x, ufo y," Ho 了 
// 为 了 再 次 消除 ， 保 存 本 次 绘制 的 坐标 。 
ufo prev x = ufo x; 
ufo_prev y = ufo y; 
// 绘 制 炮 台 。 
g.draw_string(font, ufo color, tank x, 5406," /AN "Ys 
// 发 里 了 激光 的 话 .… 
if(beam flag)t{ 
// 消除 前 面 的 激光 ， 重 画 新 的 激光 。 






































g.draw_string(font, ufo color, ufo prev x, ufo prev _y," 


g.draw_string(font, ufo color, ufo x, ufo y,"|"); 
beam prev_y = beam y; 


// 碰撞 判断 。 可 能 很 幼稚 。 





") 


") 


if(beam x >= ufo x && beam x < ufo x + 80 


&& beam y >= ufo y && beam y < ufo y +66){ 


// 被 激光 打 中 后 跳出 循环 。 


break; 


} 
// 通过 判断 键盘 输入 移动 炮台 。 











if(is key_ pressed(KeyCode.LEFT) && tank x > 6){ 


tank x -= 10; 


} elseif(is key pressed(KeyCode.RIGHT) && tank x < 766){ 


tank x += 10; 
} 


if(is key_pressed(KeyCode.SPACE) && !beam flag){ 


beam flag = true; 
beam x = tank x + 40; 


beam y = beam prev y = 480; 


} 
// UF0 的 移动 。 在 ufo_next_x,y 的 附近 移动 。 


if(ufo x < ufo next x -16){ 
ufo x += 10; 


} elseif(ufo x > ufo next x + 10){ 


ufo x -= 108; 
} else { 








// 如 果 两 次 坐标 基本 相同 ， 则 重 





ufo_next x = Fandom(766) 





全 局 





新 设 定 目 





} 

if(ufo y < ufo next y - 16) { 
ufo_y += 10; 

} elseif (ufo y > ufo next y + 16) { 
ufo y -= 16; 

} else { 


ufo_next y = random(450); 


} 

// 激光 的 移动 

if(beam flag) { 
if(beam y < -26){ 

beam flag = false; 

} 
beam y -= 20; 

} 

// 定时 消息 循环 。 无 论 有 没有 























// 鼠标 或 者 键盘 事件 ， 都 等 待 26 毫 秒 。 





timed message loop(w, 20); 
} 
// 被 激光 打 中 后 跳出 循环 ， 执 行 这 里 。 
for(;;){ 


标 坐 标 。 








120: // 显示 爆炸 效果 














121: Color explosion color = new Color(255, 606, 0); 

122: g.draw_string(font, explosion color, ufo x, ufo y, "***"); 
123: timed message loop(w, 1060); 

124: g.draw_string(font, explosion color, ufo x, ufo_y, "###"); 
125: timed message loop(w, 1060); 

126: // 按 N 重 启 游戏 ， 按 Q 退 出 。 

127 : if(is key_pressed(KeyCode.N)){ 

128 : Brush b = create _solic_brush(6，6，6); 

129 : g.fil1l_rectangle(b，6，6，860，666) 

136 : b.dispose(); 

131: break; 

132: } elsif (is key pressed(keycode)) { 

133: exit(0); 

134: } 

135: 

136: } 





游戏 的 截屏 如 下 所 示 。 
这 是 个 跟 我 同时 代 的 人 都 会 怀念 的 画面 吧 ”。 

















* 当 然 ， 在 Diksam 中 也 可 以 很 简单 地 使 用 图 标 来 表示 UFO。 


Diksam 在 这 个 领域 的 进化 旅程 才刚 开始 ， 谁 也 不 知道 它 在 未 来 会 变 成 什 
么 样子 。 但 是 ， 在 代码 清单 “ufo.dkm” 的 程序 中 ， 只 能 有 一 架 UFO， 在 
同一 时 间 炮 台 只 能 发 射 一 发 激光 《因为 表示 UFO 和 激光 位 置 的 变量 只 有 
一 组 ) 。 如 果 澳 得 这 样 没意思 的 话 ， 惑 必须 要 使 用 数组 了 。x 坐 标 和 y 坐 
标 要 是 都 使 用 数组 来 管理 的 话 ， 肯 定 会 很 不 方便 ， 如 果 有 类 的 话 感觉 就 
会 方便 很 多 。 同 样 ， 即 使 不 同时 出 现 多 个 飞碟 ， 如 宁 想 要 各 种 各 样 的 敌 
人 轮番 登场 ， 就 要 使 用 继承 和 多 态 了 .……. 一 门 语言 因为 追寻 着 这 样 的 思 
路 而 具有 了 面向 对 象 的 概念 ， 真 让 人 兴奋 。 


各 位 读者 朋友 ， 你 们 想 让 自己 的 编程 语言 同 哪个 方向 发 展 呢 ? 希望 本 书 
能 给 各 位 带 来 一 些 局 发 。 
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田中 先生 的 这 本 书 以 理论 为 主 ， 难 点 很 多 。 书 中 记录 了 类 似 于 
Pascal 的 语言 处 理 “PL/0” 的 全 部 代码 ， 很 有 实用 价值 。PL/0 是 一 个 
递归 下 降 语 法 分 析 器 ， 因 此 本 书 可 以 为 不 想 使 用 yacc 来 制作 编程 语 
言 的 人 提供 参考 。 


lex&yacc7F DIFF 7 
英文 版 : lex & yacc 
中 文 版 :， 《lex 与 yacc》 “(机械 工业 出 版 社 已 绝版 ) 


O'Reilly 的 动物 系列 图 书 。 我 认为 束 凭 它 在 这 个 系列 中 ， 这 本 书 束 值得 
信赖 。 它 的 出 版 时 间 较 早 ， 但 可 以 作为 yacclex 的 参考 手册 ， 是 一 本 非 
党 有 实用 价值 的 书 。 


下 面 这 些 书 是 我 目前 正在 学 习 的 。 
。 卫 > 人 了 三 工 一 原理 :技法 > 一 几 


英文 版 : Compilers: Principles, Techniques, and Tools (2nd Edition) 
中 文 版 ，《 编 译 原理 》 (机 械 工 业 出 版 社 ) 


可 以 说 是 编译 器 制作 方面 的 圣经 之 著 。 因 为 封面 上 印 有 龙 的 图 案 所 以 被 
呈 作 * 龙 节 ”( 确 切 地 说 应 该 是 . 红 龙 蔬 ") 《第 4 章 中 译 者 也 引用 了 这 本 
中 的 内 容 ) 。 




















本 书 是 原版 的 第 一 卷 。 现 在 ， 第 二 卷 已 经 很 难 见 到 了 《即便 是 作者 这 样 
的 资深 入 士 也 没有 机 会 收藏 ) 。 
本 书 内 容 个 太 容易 理解 《例如 在 不 使 用 yacc 的 情况 下 制作 LR 解 析 器 ) ， 








但 我 觉得 这 是 本 不 可 不 读 的 好 书 。 


3y>A 公 1{f 三 DOD 构 成 上 最 通化 中 文 译名 《编译 器 的 结构 与 优化 》 
作者 : 田中 育 男 

出 版 社 : 朝 仓 书 店 ，1999 
I 
再 。 

0 
这 于 和 


Garbage Collection: Algorithms for Automatic Dynamic Memory 
Management 

作者 : Richar Jones,Rafael Lins 

出 版 社 : John Wiley & Sons，1996 

尚 无 译本 。 本 书 中 不 仅 介 绍 了 Mark-Sweep GC 和 Copying GC 等 算 
法 ， 还 讲解 了 通过 简单 地 实现 来 解决 问题 的 方法 (世代 型 GC、 增 
量 GC、 并 发 GC 等 )。 


